﻿ Universitatea "Politehnica" din Timişoara Facultatea de Electronică şi Telecomunicaţii Departamentul Comunicaţii Contribuţii la compresia semnalului vocal în sistemele de comunicaţii numerice Teză de doctorat 2002 Autor Andrei Cubiţchi Conducător ştiinţific Prof dr ing Ioan NaforniţăCuprins Capitolul 1 Introducere1 Capitolul 2 Transformãri ortogonale4 2 1 Câteva transformări ortogonale utilizabile la compresia de date 4 2 1 1 Legătura dintre teoria funcţiilor "wavelet" şi codarea în subbenzi 5 2 1 1 1 Codarea subbandă cu reconstrucţie perfectă folosind sisteme cu structură13 arborescentă cu filtre realizabile 2 1 1 1 1 Metode de proiectare a filtrelor CQF17 2 1 2 Legãtura dintre sistemele de codare în subbenzi şi teoria seriilor de funcţii "wavelet"17 2 1 3 Transformarea "wavelet" discretã TUD 26 2 1 4 Pachete de funcţii "wavelet" 29 2 1 4 1 Alegerea celei mai bune baze 31 2 1 4 2 Pachete de funcţii "wavelet" de tip Malvar 34 2 2 Utilizarea transformărilor ortogonale prezentate la compresia de date 36 2 2 1 Analiza statistică a TUD 36 2 2 2 Analiza statistică a TPWD 47 2 2 3 Analiza statistică a TPC 51 2 3 Alegerea celei mai bune funcţii de tipul "wavelets mother" 52 Capitolul 3 Detectorul de prag57 3 1 Detecţia adaptivă de prag 57 3 2 Analiza statistică a detectorului de prag 59 Capitolul 4 Sistemul de cuantizare61 4 1 Proprietăţile psiho-acustice ale semnalului de vorbire 61 4 1 1 Fenomenul de mascare 61 4 1 2 Benzi critice 63 4 1 2 1 Pragul de mascare 64 4 1 2 2 Utilizarea pragului de mascare la compresia semnalului de vorbire 65 4 2 Cuantizarea adaptivă în domeniul TPC 66 4 3 Celelalte blocuri ale sistemului de compresie 68 Capitolul 5 Simulãri ale metodei de compresie69 5 1 Primul experiment 69 5 2 Al doilea experiment 74 5 3 Al treilea experiment 75 5 4 Al patrulea experiment 79 Capitolul 6 Concluzii83 Capitolul 7 Contributii originale87 Bibilografie90Capitolul 1 1 Capitolul 1 Introducere Una dintre metodele cele mai importante de prelucrare a semnalelor utilizate în telefonia numerică este compresia de date Acest domeniu de prelucrare a semnalelor are o dinamică accentuată În prezent se utilizează două categorii mari de tehnici de compresie: cele cu pierdere de informaţie şi cele fără pierdere de informaţie În cazul semnalelor vocale, cele care se vehiculează în telefonia numerică, având în vedere redundanţa lor sporită, se preferă utilizarea tehnicilor de compresie cu pierdere de informaţie Dintre acestea trebuiesc amintite cele bazate pe predicţie (aşa cum sunt cele folosite în standardul GSM), cele bazate pe transformări ortogonale, precum şi cele bazate pe codarea în subbenzi Indiferent la care dintre aceste tehnici de compresie ne referim trebuie remarcat că ea se bazează pe aplicarea unei succesiuni de metode de bază de prelucrare a semnalelor cum ar fi: eşantionarea, cuantizarea sau codarea Pentru a fi eficiente, metodele de compresie, trebuie să exploateze specificul datelor ce urmează a fi comprimate Particularităţile semnalului de vorbire sunt exploatate în standardele de compresie a vorbirii în vigoare cum ar fi de exemplu standardul GSM Semnalul de vorbire este un semnal foarte complex, care posedă numeroase caracteristici În scopul compresiei este util să se sublinieze că acesta nu este un semnal staţionar dar că el poate fi considerat ca local staţionar pe durate de ordinul a câtorva zeci de milisecunde Frecvent, semnalul de vorbire este împărţit în segmente de 20 ms Fiecare astfel de segment poate fi privit ca şi un semnal staţionar Compresia semnalului de vorbire este favorizată de existenţa unui model de producere a vorbirii simplu şi eficace Este vorba despre un model autoregresiv care presupune că semnalul de vorbire se obţine prin filtrarea unui zgomot alb sau a unui tren de impulsuri Dirac folosind un filtru care nu are decât poli Acest model se pretează la compresie prin predicţie linară şi stă la baza standardului GSM Există şi un model de percepţie a vorbirii, numit psiho-acustic Cunoaşterea sa poate fi exploatată pentru creşterea factorului de compresie În scopul prelucrării semnalelor de vorbire este utilă o clasificare a acestora În funcţie de aplicaţie, se vorbeşte despre semnal de vorbire în banda telefonică, respectiv despre semnal de vorbire de bandă largă În cazul semnalului de vorbire în banda telefonică, semnalul în timp continuu achiziţionat se filtrează în banda Hz şi apoi se eşantionează cu frecvenţa de 8 kHz Din această categorie face parte semnalul care este transmis în reţeaua telefonică publică Există numeroase normalizări şi recomandări referitoare la semnalul de vorbire în banda telefonică Reţeaua telefonică publică După 1972 norma internaţională G 711 precizează pentru semnalul de vorbire o cuantizare (codare) PCM (Pulse Code Modulation), corespunzătoare unui debit de 64 kbit/s (este vorba despre o cuantizare uniformă pe 8 biţi) După 1984 norma G 721 a definit o cuantizare cu modulaţia impulsurilor în cod, diferenţială, adaptivă, ADPCM (Adaptive Differential Pulse Code Modulation) Nu se mai cuantizează direct semnalul de vorbire eşantionat ci diferenţa dintre acesta şi o variantă a sa obţinută printr-o predicţie bazată pe filtrare adaptivă Debitul corespunzător acestei metode de compresie este de 32 kbit/s Un codor bazat pe tehnici de modelare şi de cuantizare vectoriale a fost selecţionat de ITU în anul 1991 Acesta corespunde unui debit de 16 kbit/s Performanţele sale sunt specificate de norma G 728 Metoda care stă la baza construcţiei acestui codor se numeşte LD-CELP (Low Delay Code2Introducere Excited Linear Prediction Coding) Este vorba despre o codare bazată pe predicţia liniară prezentând o întârziere mică de reconstrucţie, proprietate foarte importantă pentru o legătură telefonică După 1994 s-a simţit nevoia introducerii unui codor care să aibă un debit de 8 kbit/s La acesta se lucrează în cadrul mai multor echipe de cercetare în prezent Comunicaţii mobile Natura canalului de transmisiuni, legătură radio, cere economisirea la maximum a benzii semnalului transmis pentru a fi posibil un număr cât mai mare de utilizatori În 1989 a fost introdusă norma europeană GSM (Groupe Special Mobile) Această normă foloseşte tehnicile de acces multiplu prin divizare în timp, TDMA (Time Division Multiple Access) şi codarea sursei, RPE-LTP (Regular Pulse Excitation-Long Term Prediction) făcând posibil un debit de 13 kbit/s Reţeaua de comunicaţii bazată pe standardul GSM are o capacitate de 3 ori mai mare decât reţeaua analogică După 1994 a 1 fost introdus standardul GSM care permite construcţia unei reţele cu o capacitate de 10 ori mai 2 mare decât capacitatea unei reţele analogice corespunzătoare Se preconizează introducerea în viitor a unui sistem de comunicaţii mobile de generaţia a 3-a, bazat pe tehnici de acces multiplu prin divizarea codurilor CDMA (Code Division Multiple Access) care să permită debite variabile De exemplu, societatea americană Qualcomm a realizat codorul QCELP, care selecţionează dinamic din 20 în 20 de ms un anumit debit dintre valorile posibile: 8, 4, 2, şi 1 kbit/s (ceea ce corespunde la un debit mediu de 4 kbit/s) În cazul semnalului de bandă largă se face o prefiltrare în banda Hz urmată de o eşantionare care foloseşte frecvenţa de 16 kHz Acest tip de semnal de vorbire se foloseşte în aplicaţiile care cer o calitate superioară a semnalului reconstruit Există două metode de compresie a acestor semnale: ! CELP, ! codarea în subbenzi (asemănătoare celei folosite la compresia muzicii) OBSERVAŢIE Toate debitele amintite mai sus se referă la codarea sursei În calculul debitului efectiv al sistemului de compresie trebuie să se ţină cont şi de operaţia de codare a canalului De aceea debitele reale necesare sunt mai mari decât cele amintite mai sus Pentru a realiza o compresie de calitate este necesar să se îndeplinească două deziderate: să se obţină un factor de compresie cât mai mare şi semnalul reconstruit în urma decompresiei să aibă distorsiuni cât mai mici Din păcate aceste două deziderate sunt antagonice, cu cât unul dintre ele este mai deplin satisfăcut cu atât celălalt este satisfăcut în mai mică măsură Metodele de compresie bazate pe predicţie liniară au fost elaborate în urmă cu peste douăzeci de ani Între timp teoria prelucrării semnalelor a evaluat foarte mult De aceea scopul acestei teze este de a prezenta metode mai recente de compresie a semnalelor şi de a investiga posibilităţile de utilizare a acestor metode la compresia semnalului de vorbire Printre aceste metode, un loc aparte îl ocupă cele bazate pe utilizarea teoriei funcţiilor "wavelet" Deşi de dată mai recentă, această teorie poate fi utilizată cu succes în compresia semnalelor Cea mai bună dovadă este că foarte recent a fost elaborat un nou standard de compresie a imaginilor statice, numit JPEG 2000, bazat pe utilizarea funcţiilor "wavelet" Această teorie a fost utilizată şi pentru realizarea unor programe mai performante de căutare în bazele de date conţinând amprente ale FBI-ului Timpul de căutare a unei anumite amprente a fost redus, datorită compresiei imaginii acesteia, de la câteva ore la câteva minute Capitolul 1 3 Teoria funcţiilor "wavelet" se utilizează şi la compresia semnalelor biomedicale, ca de exemplu electrocardiogramele În prezent se lucrează şi la elaborarea unor noi metode de compresie a semnalelor audio bazate pe utilizarea acestei teorii Iată de ce scopul acestei teze este de a prezenta un studiu al posibilităţilor de utilizare a teoriei funcţiilor "wavelet" la compresia semnalului de vorbire În continuare se descrie schema unui sistem de compresie De obicei la compresie se utilizează transformări ortogonale, deoarece acestea sunt neredundante Rolul transformării ortogonale este de a decorela semnalul care trebuie comprimat În urma aplicării transformării ortogonale se obţin numeroase eşantioane de valoare foarte mică Acestea pot fi neglijate fără a fi afectat preea mult conţinutul informaţional al semnalului de prelucrat În urma efectuării acestei operaţii se obţine un nou semnal care este cuantizat Următoarea operaţie este una de codare (compresie fără pierderi) care contribuie şi ea la creşterea fatorului de compresie Semnalul de la ieşirea codorului reprezintă varianta comprimată a semnalului de prelucrat Structura acestei lucrări este bazată pe schema de compresie descrisă mai sus În capitolul 2 se prezintă câteva transformări ortogonale, insistându-se asupra transformărilor "wavelet" discrete Se evidenţiază efectul de decorelare al acestor transformări În capitolul 3 se studiază sistemele de rejecţie a eşantioanelor, din domeniul transformatei, mai mici decât un anumit prag Se prezintă o strategie de iniţializare a valorii acestui prag, precum şi o metodă adaptivă de alegere a valorii pragului În capitolul 4 se face o prezentare a metodelor de cuantizare, care pot fi folosite în aplicaţiile de compresie, urmărindu-se obţinerea unui echilibru între factorul de compresie, pe care-l pot produce aceste metode şi volumul de calcul necesar Capitolul 5 este dedicat simulării unor metode de compresie a semnalului de vorbire, precum şi analizei rezultatelor acestor simulări În capitolul 6 se prezintă concluziile acestei teze, iar în capitolul 7 principalele contribuţii ale autorului Capitolul 2 Transformãri ortogonale 2 1 Câteva transformări ortogonale utilizabile la compresia de date După cum s-a arătat şi în introducere, schema unui sistem de compresie bazat pe utilizarea unei transformări ortogonale este cea prezentată în figura 2 1 1 Figura 2 1 1 Schema unui sistem de compresie bazat pe utilizarea unei transformări ortogonale S-au utilizat următoarele prescurtări: TO - sistem de calcul al transformării ortogonale; DP - detector de prag (este sistemul care rejectează eşantioanele de valoare mică, toate eşantioanele inferioare unui prag sunt anulate); Cu - Sistem de cuantizare; Co - Sistem de codare; D - Sistem de decodare, inversul sistemului Co; TOI - Sistem de calcul al transformării ortogonale inverse celei calculate de TO Principalele semnale din această figură sunt: semnalul de prelucrat ][nx, semnalul obţinut în urma compresiei ][nv şi semnalul reconstruit, obţinut prin efectuarea operaţiei de decompresie, ][ˆnx Eşantioanele semnalului ][nx sunt corelate Asta înseamnă că de informaţia conţinută în eşantionul curent sunt responsabile şi eşantioanele vecine şi reciproc De aceea prin înlăturarea eşantionului curent este afectată nu numai informaţia conţinută în el ci şi informaţia conţinută în eşantioanele vecine Rolul transformării ortogonale este de a decorela semnalul În urma aplicării transformării ortogonale se obţine un nou semnal Dependenţa conţinutului de informaţie al eşantionului curent al acestui nou semnal, ][ny, de informaţia conţinută în eşantioanele vecine este mai slabă De aceea prin înlăturarea eşantionului curent informaţia conţinută în eşantioanele vecine este mai puţin afectată decât în cazul semnalului ][nx Înlăturarea eşantionului curent conduce la o pierdere de informaţie cu atât mai mică cu cât valoarea sa este mai mică Un exemplu este prezentat în figura 2 1 2 2 1 Câteva transformări ortogonale utilizabile la compresia de date 5 Figura 2 1 2 Un exemplu de semnal x[n] (sus) şi y[n] (jos) Transformarea ortogonală folosită este modulul transformării Fourier discretă Analizând această figură se constată că prin aplicarea transformării Fourier discretă toată informaţia s-a grupat în şase eşantioane de valoare semnificativă Anulând orice grup de eşantioane dintre cele cu indicele cuprins între 60 şi 190, conţinutul informaţional al semnalului ][ny nu se modifică Evident nu se poate spune acelaşi lucru pentru semnalul ][nx, toate eşantioanele cu indicele cuprins între 60 şi 190 având o contribuţie importantă la forma acestuia După cum s-a arătat în , în paragraful 3 1 1 sau în sau în , transformarea care realizează decorelarea maximă a unui semnal este transformarea Karhunen-Loeve Din păcate nu există algoritmi rapizi pentru calculul acestei transformări deoarece acesta presupune inversarea unei matrici Există cazuri de semnale când această matrice este singulară De aceea în practică se utilizează transformări suboptimale, ca de exemple transformarea cosinus discretă sau transformarea "wavelet" discretă, aşa cum s-a arătat în paragraful 3 2 din Deşi aceste două transformări converg asimptotic la transformarea Karhunen-Loeve totuşi aplicarea transformării "wavelet" discretă la compresie are anumite avantaje Aceste avantaje vor fi evidenţiate în această lucrare Vor fi analizate, de asemenea, şi alte transformări discrete, bazate pe teoria funcţiilor "wavelet", ca de exemplu, transformarea cu pachete de funcţii "wavelet" discretă, TPWD, sau transformarea cu pachete cosinusoidale discretă, TPC Se va demonstra că şi aceste transformări converg asimptotic la transformarea Karhunen-Loeve Pentru aceasta este însă necesar să se prezinte câteva aspecte ale teoriei funcţiilor "wavelet" O astfel de prezentare este făcută în capitolul 2 din În continuare se vor prezenta, fără demonstraţii, principalele rezultate obţinute în ultima referinţă bibliografică citată 2 1 1 Legătura dintre teoria funcţiilor "wavelet" şi codarea în subbenzi O introducere detaliată în teoria funcţiilor "wavelet", în limba română, evidenţiând aspectele matematice semnificative ale acesteia poate fi găsită în sau în În continuare nu vor fi prezentate decât aspectele interesante ale acestei teorii din punctul de vedere al compresiei de date Pentru început se analizează funcţionarea unui codor în două subbenzi, celulă de bază a structurilor de prelucrare multirating , care se folosesc la compresia semnalelor audio, conform standardului MPEG Se considerã sistemul din figura 2 1 1 1 b) 62 1 1 Legătura dintre teoria funcţiilor "wavelet" şi codarea în subbenzi Figura 2 1 1 1 a) Simbol pentru un decimator; b) schema unui codor cu douã subbenzi Pentru început se consideră cazul cel mai simplu, în care cele două filtre folosite sunt ideale Rãspunsurile în frecvenţã ale filtrelor numerice cu rãspunsurile la impuls h[n] şi g[n] din figura 2 1 1 1 sunt prezentate în figura 2 1 1 2 Figura 2 1 1 2 Rãspunsurile în frecvenţã ale filtrelor din figura 2 1 1 1 Pentru a analiza codorul în subbenzi se calculeazã transformatele z ale semnalelor s[n] şi d[n] În acest scop se constatã cã: U(z) = X(z) H(z) ; V(z) = X(z) G(z) Conform definiţiei transformatei z: − nn− S(z)∑ =s[n]z u z = ∑ nn −−− )1n2(n2n− =U(z)∑ =u[n]z +u z 1]z+u[2n ∑∑ nnn −− )1n2(n2+ u z=z)U(∑ 1]z+u[2n −− ∑ nn şi se observã cã putem scrie: 1 −− 2n2n2 [] =z)U(+U(z)∑ =u z =)z(u )S(z − ∑ 2 nn 2 1 1 Legătura dintre teoria funcţiilor "wavelet" şi codarea în subbenzi 7 Revenind la expresia lui S(z) : 11       1(2 1 1 1)       − S(z)22 = U U+zz       2       sau : 1111          1         (2 1 1 2)  S(z)2222 = zHzX+zHzX − −          2          În mod analog se demonstreazã cã : 1111   1 (2 1 1 3)   D(z)2222 = zGzX+zGzX −−   2   Pentru a calcula spectrele semnalelor s[n] şi d[n] se foloseşte substituţia: Ω j ez = în relaţiile (2 1 1 2) şi (2 1 1 3), obţinându-se :  1 ΩΩΩΩ  )S( = X H + X + H + π⋅π⋅Ω   22222    1 ΩΩΩΩ  )D( = X G + X + G + π⋅π⋅Ω   22222   Fie, de exemplu, spectrul X(Ω), cel trasat în figura 2 1 1 3 82 1 1 Legătura dintre teoria funcţiilor "wavelet" şi codarea în subbenzi Figura 2 1 1 3 Un exemplu de spectru de semnal de intrare Spectrele semnalelor s[n] şi d[n] sunt prezentate în figurile 2 1 1 4 şi 2 1 1 5 Figura 2 1 1 4 Spectrul semnalului s[n] Figura 2 1 1 5 Spectrul semnalului d[n] Se constatã cã spectrul S(Ω) este asemenea cu spectrul X(Ω) în banda [ - π/2 , π/2 ] Se constatã cã porţiunea din spectrul D(Ω) în banda [ -2π , -π ] ∪ [ π , 2π ] este asemenea cu spectrul X(Ω) în banda [ - π , π ] - [ -π/2 , π/2 ] 2 1 1 Legătura dintre teoria funcţiilor "wavelet" şi codarea în subbenzi 9 Figura 2 1 1 6 Structură arborescentã de codare în subbenzi Se poate deci afirma cã semnalul x[n] a fost codat în douã subbenzi, componentele sale de joasã frecvenţã regãsindu-se în semnalul s[n] iar componentele sale de înaltã frecvenţã, în semnalul d[n] Sistemul de codare în subbenzi din figura 2 1 1 1 poate fi privit şi ca un sistem de proiecţie Dacă tx într-o bază a unui spaţiu Hilbert V secvenţa ][nx reprezintă coeficienţii dezvoltării unui semnal () 0 ns şi []nd reprezintă coeficienţii dezvoltărilor semnalelor ()ts şi ()td, proiecţiile atunci secvenţele [] tx pe două subspaţii Hilbert închise ale lui V, V şi W, în bazele acestor subspaţii semnalului () 01−1− Spaţiile V şi V reprezintă elementele unei analize multirezoluţie 01− Pentru a creşte numãrul de subbenzi se poate utiliza o structurã arborescentã aşa cum se vede în figura 2 1 1 6 Acest sistem poate fi utilizat, pentru calculul transformării "wavelet" discretă Se calculeazã transformatele z ale semnalelor sk[n] şi dk[n], k = =1÷ M Se observã ( conform figurii 2 1 1 1) cã: s[n][n]s= ; d[n]=[n]d 11 şi astfel se poate scrie : 1111    1   2222   −−+ (z)S = 112zHzSzHzS     2     1111   1  2222  −−+ (z)D = 112zGzSzGzS     2  102 1 1 Legătura dintre teoria funcţiilor "wavelet" şi codarea în subbenzi Figura 2 1 1 7 Spectrul semnalului s2[n] Figura 2 1 1 8 Spectrul semnalului d2[n] Continuând exemplul considerat anterior, spectrele semnalelor s2[n] şi d2[n] iau formele din figurile 2 1 1 7 şi 2 1 1 8 ) este asemenea cu spectrul X(Ω) din banda [ -π/4 , π/4 ] şi cã Se constatã cã spectrul S2(Ω ) este asemenea cu spectrul X(Ω) din banda [- π/2 , π/2 ] - [ -π/4 , π/4 ] spectrul D2(Ω Figura 2 1 1 9 Corespondenţa dintre spectrul X(Ω) şi spectrele Sk(Ω), Dk(Ω), k = 1÷2 Procedând similar se constatã cã spectrul SM(Ω) este asemenea cu spectrul X(Ω) din banda MM /2 ] şi cã spectrul DM(Ω) este asemenea cu spectrul X(Ω) din banda [ -π/2 , π M-1M-1MM /(2) ] - [ -π/2 , π/2 ] [ - π/(2) , π Cu alte cuvinte fâşii din spectrul X(Ω) au fost puse în corespondenţã cu semnalele sk[n] şi dk[n] Aceastã corespondenţã este evidenţiatã în figura 2 1 1 9 2 1 1 Legătura dintre teoria funcţiilor "wavelet" şi codarea în subbenzi11 Se constatã cã folosind sistemul din figura 2 1 1 6, banda spectrului semnalului x[n] este divizatã în octave Se poate deci afirma cã sistemul cu structurã arborescentã din figura 2 1 1 6 este într-adevãr un codor în subbenzi În continuare se analizeazã operaţia de decodare Se pune problema refacerii semnalului x[n] pornind de la semnalele s[n] şi d[n] Se considerã în acest scop sistemul din figura 2 1 1 10 b) Figura 2 1 1 10 a) Interpolator şi definiţia semnalului dela ieşirea sa; b) sistem de decodare corespunzãtor celui din figura 2 1 1 1 Se calculeazã transformata z a semnalului b[n] (figura 2 1 1 10 a) ) pe baza transformatei z a semnalului a[n] : n− (z)α = [n]z α ∑ n −−− )1n2(n2n+ (z)β = =[n]z + z =1]z+[2n βββ ∑∑∑ nnn 2n2− () = =[n]z αz α ∑ n astfel încât se pot scrie transformatele z pentru celelalte semnale ce apar în sistemul de codare: 22 )S(z=(z)U U;(z) = );D(z 21 sau, ţinând seama de relaţiile (2 1 1 2) şi (2 1 1 3) : 1 [] H(z)Y(z)− +z)H(z)X(+H(z)X(z) ⋅−⋅⋅= (2 1 1 4) 2 1 [] G(z)− z)G(z)X(+G(z)X(z) ⋅−⋅⋅+ 2 Pe baza acestei relaţii se determinã spectrul semnalului y[n] : 1 [] Ω⋅πΩΩ⋅Ω⋅ΩΩ )X()H(=)Y(π )+X(+)H( +)+H( 2 (2 1 1 5) 1 [] Ω⋅πΩΩ⋅Ω⋅Ω+ )X()G(π )+X(+)G( )+G( 2122 1 1 Legătura dintre teoria funcţiilor "wavelet" şi codarea în subbenzi Dacã se folosesc filtrele cu rãspunsurile în frecvenţã cu caracteristicile de modul din figura 2 1 1 2 atunci sunt valabile relaţiile : Ω⋅ΩπΩ⋅Ω 0=)+G()G(=)+H()H(π 22 1=)(G+)(HΩ Ω Pe baza acestor relaţii, (2 1 1 5) devine : 11 22 =)(G)X(+)(H)X(=)Y(Ω ⋅Ω⋅Ω⋅Ω⋅Ω (2 1 1 6) 22 11 22 [] )(X)(G)(H)X(Ω ⋅=Ω+Ω⋅Ω⋅= 22 Figura 2 1 1 11 Schema unui decodor pentru semnale codate în M subbenzi Deci, cu excepţia unei constante multiplicative (egalã cu 1/2), semnalele x[n] şi y[n] sunt identice Se spune cã sistemul de decodare din figura 2 1 1 11 este cu reconstrucţie perfectã De aceea sistemul din figura 2 1 1 11 poate fi utilizat pentru reconstrucţia perfectã a semnalului prelucrat de sistemul din figura 2 1 1 6, în ipoteza cã se folosesc filtrele ideale cu rãspunsurile în frecvenţã din figura 2 1 1 2 Sistemul din figura 2 1 1 11 permite calculul transformării "wavelet" discretă inversă OBSERVAŢII O1 O analizã similarã poate fi fãcutã şi pentru cazul în care interpolarea şi decimarea nu se fac folosind constanta 2 ci o alta, de exemplu, M, M∈N În acest caz nu se va mai obţine o descompunere în octave a benzii B a semnalului u[n] ci în subbenzi a cãror lãţime va descreşte cu puteri ale lui M O2 Pentru structurile care utilizeazã arbori simetrici se poate face o analizã similarã Aceasta corespunde noţiunii de pachete de funcţii "wavelet", introdusă în O3 Principala limitare a sistemelor de codare şi decodare în subbenzi cu structurã arborescentã prezentate pânã acum este cã filtrele cu rãspunsurile în frecvenţã din figura 2 1 1 2 nu sunt realizabile În continuare se vor determina clase de filtre realizabile care permit codarea în subbenzi, cu structurã arborescentã şi cu reconstrucţie perfectã 2 1 1 Legătura dintre teoria funcţiilor "wavelet" şi codarea în subbenzi13 2 1 1 1 Codarea subbandã cu reconstrucţie perfectã folosind sisteme cu structurã arborescentã cu filtre realizabile Se considerã în continuare cã h[n] şi g[n] sunt filtre realizabile Un sistem, echivalent celui din figura 2 1 1 10, destinat reconstrucţiei perfecte, este prezentat în figura 2 1 1 12 Figura 2 1 1 12 Sistemul de reconstrucţie corespunzător unui codor în două subbenzi Conform acestei figuri rezultã cã semnalul de la ieşirea decodorului este o variantã întârziatã cu d a semnalului de la intrare Trebuiesc determinate rãspunsurile la impuls hr[n] şi gr[n] precum şi condiţiile pe care trebuie sã le îndeplineascã rãspunsurile la impuls h[n] şi g[n] pentru ca la ieşirea sistemului din figura 2 1 1 12 sã se poatã obţine semnalul x[n-d] În acest scop se rescrie relaţia (2 1 1 4): 1 − d [] z)H(z)X(+H(z)X(z)(z)H=X(z)z− + −⋅⋅⋅ r⋅ (2 1 1 7) 2 1 [] z)G(z)X(+G(z)X(z)(z)G− −⋅⋅+ r⋅ 2 sau, regrupând în membrul drept : 1 − d [] X(z)=X(z)z⋅ (z)GG(z)H(z)(z)H + ⋅⋅⋅ rr+ 2 1 [] z)X(⋅ (z)Gz)G(z)H((z)H +−⋅⋅−+ rr− 2 Aceastã ecuaţie este satisfãcutã şi de soluţiile sistemului de ecuaţii : d− ⋅ rr2z=(z)GG(z)+H(z)(z)H⋅ 0=)z(Gz)G(+)z(Hz)H(⋅ ⋅− rr− În continuare se rezolvã acest sistem, considerându-se cunoscute transformatele z notate cu H(z) şi G(z) Determinantul sistemului este : H(z) G(z) ⋅G(z)z)H(z)G(H(z)== −−−⋅∆ z)H( −z)G( −142 1 1 1 Codarea subbandã cu reconstrucţie perfectã folosind sisteme cu structurã arborescentã cu filtre realizabile Determinanţii corespunzãtori celor douã necunoscute sunt de forma: d− G(z) 2z d− H− z)G(2z== ∆ r⋅ 0 −z)G( Deci soluţiile sunt date de relaţiile urmãtoare : d− z)G(z2− ⋅⋅ =(z)H(2 1 1 8) r G(z)z)H(z)G(H(z)⋅ −−−⋅ d− z)H(z2− ⋅⋅− =(z)G(2 1 1 9) r G(z)z)H(z)G(H(z)⋅ −−−⋅ Evident, o condiţie care trebuie impusã filtrelor din structura codorului este ca ecuaţia : (2 1 1 10) −−−⋅ 0=G(z)z)H(z)G(H(z)⋅ sã nu aibã nici o rãdãcinã diferitã de rãdãcinile ecuaţiei : d− =z 0 De aceea o condiţie potrivitã pentru filtrele cu rãspunsurile la impuls h[n] şi g[n] ar fi : d− (2 1 1 11) 2z=G(z)z)H(z)G(H(z)⋅ −−−⋅ În acest caz relaţiile (2 1 1 8) şi (2 1 1 9) devin : (2 1 1 12) (z)H− = z)G( r (2 1 1 13) (z)G− z)H(= r− Deci rãspunsurile în frecvenţã ale filtrelor de reconstrucţie depind de rãspunsurile în frecvenţã ale filtrelor din structura codorului conform relaţiilor : (2 1 1 14) )(Hπ = )+G( Ω rΩ (2 1 1 15) )(Gπ )+H(= −Ω rΩ iar rãspunsurile în frecvenţã ale filtrelor din structura codorului satisfac : − djΩ (2 1 1 16) )G()+H()+G()H(⋅ = e2 Ω⋅πΩ−πΩ⋅Ω Hr(z) şi Gr(z) sunt funcţiile de transfer ale filtrelor introduse de Esteban şi Galand, , sub numele de "Quadrature Mirror Filters", QMF 2 1 1 1 Codarea subbandã cu reconstrucţie perfectã folosind sisteme cu structurã arborescentã cu15 filtre realizabile OBSERVAŢIE : Relaţia corespunzãtoare lui (2 1 1 11) în domeniul timp este: kkn− (2 1 1 17) d][n2=})1()1{(k]g[nh[k]− δ⋅−−−⋅−⋅ ∑ k Pentru valori pare ale lui n aceastã relaţie devine : d][n− = 0 δ rezultând astfel necesitatea ca d sã fie un numãr natural impar S-a demonstrat aşadar cã în urma folosirii filtrelor QMF se poate realiza o reconstrucţie perfectã pentru o codare în douã subbenzi, dacã filtrele de reconstrucţie îndeplinesc condiţiile (2 1 1 12) şi (2 1 1 13) iar filtrele de sintezã (cele cu rãspunsurile la impuls h[n] şi g[n]) îndeplinesc condiţia (2 1 1 11) în care valoarea lui d trebuie sã fie imparã Relaţia (2 1 1 16) este generalã Ea nu furnizeazã informaţii despre modul în care se proiecteazã filtrele de sintezã Smith şi Barnwell au determinat o clasã de filtre de sintezã, Este vorba despre clasa filtrelor "conjugate quadratur filters", CQF Ei au propus urmãtoarea legãturã între rãspunsurile în frecvenţã ale filtrelor de sintezã, presupuse ca fiind cu rãspunsuri la impuls reale : Ω− dj∗ (2 1 1 18) )+(He=)G(π Ω⋅−Ω Folosind aceastã condiţie membrul drept al relaţiei (2 1 1 16) devine, pentru d impar : 22(2 1 1 19) 2=)+H(+)H(π ΩΩ În acest caz rãspunsurile în frecvenţã ale filtrelor de reconstrucţie devin: Ω− dj∗ (2 1 1 20) )(HΩ )(He= Ω r⋅ (2 1 1 21) )(Gπ = )+H( −Ω rΩ COMENTARII 1 Fie : n [n]'h− = h[n])1( Se constatã cã : Ω↔ )+H([n]'hπ Relaţia corespunzãtoare relaţiei (2 1 1 19) în domeniul timp este, conform relaţiei Wiener - Hincin: (2 1 1 22) [n]2=[n]R+[n]Rδ ′ hhhh′ De aceea se poate afirma cã, din punctul de vedere al proiectãrii filtrelor din structura codorului, respectiv a decodorului, relaţia (2 1 1 19) este mai avantajoasã decât relaţia (2 1 1 16) 162 1 1 1 Codarea subbandã cu reconstrucţie perfectã folosind sisteme cu structurã arborescentã cu filtre realizabile 2 Cunoscându-se avantajele de implementare ale filtrelor RFI în comparaţie cu filtrele RII, în continuare se vor presupune ca fiind de tip RFI atât filtrele de sintezã cât şi cele de analizã Dacã filtrul cu rãspuns la impuls h[n] este cauzal atunci transformata sa Fourier în timp discret este : − 1L Ω− nj eh[n]=)H( ⋅Ω ∑ = 0n iar transformata sa z este : 1L− n− zh[n]=H(z)⋅ ∑ 0n= unde L reprezintã lungimea rãspunsului la impuls pentru filtrul considerat De aceea, admiţând cã h[n] sunt numere reale : 1L− ∗ njΩ eh[n]=)(H∑ ⋅Ω 0n= şi: 1L− ∗ njnΩ )+(H∑ eh[n])1(= ⋅⋅−πΩ 0n= Conform relaţiei (2 1 1 18) rezultã cã rãspunsul în frecvenţã al celuilalt filtru de sintezã va fi: − − 1L1L ΩΩ −Ω )dn(jnnjndj eh[n])1(=eh[n])1(e=)G( ⋅⋅−−⋅⋅−⋅−Ω ∑∑ 0n0n = = Pentru ca acest rãspuns în frecvenţã sã corespundã unui filtru cauzal este necesar ca pentru orice n cuprins între 0 şi L-1 (inclusiv capetele) sã fie îndeplinitã condiţia: n − d L 1 Dacã se respectã aceastã condiţie atunci cele douã filtre de sintezã sunt ambele cauzale Rezultã cã valoarea minimã a lui d este: (2 1 1 23) d = L min Pentru a putea reconstrui cu întârziere minimã este deci necesar sã se foloseascã filtre de sintezã de lungime imparã Pe baza relaţiilor (2 1 1 20) şi (2 1 1 21) se constatã cã dacã este respectatã condiţia (2 1 1 23) atunci şi filtrele de reconstrucţie sunt cauzale 2 1 1 1 Codarea subbandã cu reconstrucţie perfectã folosind sisteme cu structurã arborescentã cu17 filtre realizabile 3 Toate cele patru filtre (cu rãspunsurile în frecvenţã H(Ω ), G(Ω), Hr(Ω ) şi Gr(Ω)) au aceeaşi lungime Cu modificãri minore schema poate funcţiona cu filtre de analizã de o anumitã lungime şi cu filtre de sintezã de altã lungime , 2 1 1 1 1 Metode de proiectare a filtrelor CQF Se face notaţia : 1− )H(zH(z)=F(z)⋅ sau : 2∗ (2 1 1 25) )(H)H(=)F(Ω )H(= Ω⋅ΩΩ Condiţia (2 1 1 20) devine : (2 1 1 26) ΩΩ )F(π + )+F( = 2 Se proiecteazã sistemul cu rãspuns în frecvenţã F(Ω) pe baza relaţiei (2 1 1 26) Apoi se deduce H(Ω) pe baza relaţiei (2 1 1 25) şi în final se deduc G(Ω), Hr(Ω ) şi Gr(Ω) În sunt prezentate mai multe exemple de rãspunsuri în frecvenţã H(Ω) obţinute pe baza metodei de proiectare descrise Clasa acestor filtre poate fi restrânsã dacã se impun condiţii suplimentare De exemplu se poate impune: - condiţia de fazã liniarã (simetria rãspunsului la impuls), - condiţia de lungime minimã a rãspunsului la impuls, - condiţia ca expresiile eşantioanelor rãspunsului la impuls sã fie cât mai simple Toate aceste condiţii sunt foarte importante atunci când se pune problema codãrii în mai multe subbenzi deoarece favorizeazã stabilitatea numericã a algoritmilor care implementeazã sistemele din figurile 2 1 1 11 şi 2 1 1 16 Aceastã stabilitate este asiguratã dacã filtrele îndeplinesc o anumită condiţie de regularitate , Condiţia de regularitate este partea care leagă teoria sistemelor de codare subbandă de teoria funcţiilor "wavelet" 2 1 2 Legãtura dintre sistemele de codare în subbenzi şi teoria seriilor de funcţii "wavelet" Teoria seriilor de funcţii "wavelet" dezvoltatã în , , are ca scop construcţia unor 2 noi baze Riesz ale spaţiului L(R) Se porneşte de la definiţia analizei multirezoluţie 2 DEFINIŢIA 1 Se numeşte analizã multirezoluţie a spaţiului L(R), mulţimea de subspaţii Hilbert închise {Vm}m∈ Z care satisfac proprietãţile : Vm ⊂ Vm-1 m∈Z i) Vm+1 ⊂ 2 = ii) {} !"mm0V,)R(LV= ∈ ZmZm∈ ∈∀ iii) V)x2(f,V)x(f∈ 1mm− -m/2-m iv) ∃ ϕ∈V0, astfel încât mulţimea { ϕ(x) } = { 2 ϕ( 2x - n ) }n∈ sã formeze o bazã Riesz a lui m,nZ Vm pentru orice m 182 1 2 Legãtura dintre sistemele de codare în subbenzi şi teoria seriilor de funcţii "wavelet" Sunt prezentate numeroase exemple de analizã multirezoluţie în şi Funcţia ϕ(x) se numeşte funcţie de scalare Numeroase exemple de funcţii de scalare se gãsesc în lucrãrile deja citate Conform orice bazã Riesz poate fi transformatã într-o bazã ortonormalã Se va considera în continuare cã mulţimea {ϕ(x-k) }k∈ Z este o bazã ortonormalã a spaţiului V0 În majoritatea lucrărilor deja citate este demonstrată următoarea teoremă TEOREMA 1 În ipoteza cã {ϕ (x-k)}k este o bazã ortonormalã a spaţiului V0, mulţimea Z ∈ {ϕ m,k(x)}k∈Z este o bazã ortonormalã a spaţiului Vm În continuare se determinã proiecţiile unei funcţii f0(x) din V0 pe spaţiile V1, , VM, adicã funcţiile f1(x), , fM(x) : ⋅〉ϕ〈 ϕ ∑ (x)f n1,n,11(x)(x)f(x),= k Aceste funcţii reprezintă aproximările de diferite rezoluţii ale funcţiei f(x) În anumite aplicaţii nu este necesară rezoluţia maximă pentru a prelucra această funcţie De exemplu în cazul compresiei este uneori suficientă informaţia conţinută într-una dintre aproximările de rezoluţie mai scăzută Coeficienţii acestei dezvoltãri în serie Fourier generalizată se noteazã cu s1[n] şi sunt daţi de: * 〉−ϕ⋅−〈〉〈 ϕ ∑ n1,1=k][xk] s k k][xf(x),k]h[2n 〉−ϕ〈⋅−= ∑ k Folosind notaţia : 〉[k]s=k)(xf(x), ϕ〈 0− se obţine : (2 1 2 1) [k]s=[n]s− k]h[2n ∑ 01⋅ k relaţie care exprimă legătura între coeficienţii proiecţiilor funcţiei f(x) pe primele două elemente ale analizei multirezoluţie Coeficienţii dezvoltãrii proiecţiei pe V-2 se noteazã cu s2[n] şi sunt daţi de : ∞ ∗ (x)dxf(x)=(x)f(x),=[n]sϕ 〉〈 ϕ ∫ n,2n2,2⋅ ∞− Dar, revenind la definiţia 1, pentru m = 2, avem : 112 −−− −− 112− (x)222− x2(2= 22=)n )x2(2( )n = ⋅−ϕ⋅ϕ n,2ϕ 1 − 1− 2ϕ2(2= )x n,1⋅ sau:2 1 2 Legãtura dintre sistemele de codare în subbenzi şi teoria seriilor de funcţii "wavelet"19 11 −− −∗− 11 22 u)2(2 k)u2(k][2nh2= −ϕ⋅−⋅⋅ ϕ ∑ n1, k sau: * ϕ⋅−ϕ ∑ k,1n,2(u)k][2nh=(u) k Procedând analog se poate demonstra cã pentru orice m pozitiv este valabilã relaţia : *(2 1 2 2) ϕ⋅−ϕ ∑ − k,1mn,m(x)k][2nh=(x) k Se mai poate scrie: ∗ ∞  * =ϕ⋅−⋅ ∑ ∫ k,12dx(x)k] n[s   k ∞− 〉ϕ〈⋅−= ∑ k,1(x)),x(fk]h[2n k adică: (2 1 2 3) k]h s=[n]s− ∑ 12⋅ k Se poate demonstra prin recurenţã cã : (2 1 2 4) k]h s=[n]s− ∑ − 1mm⋅ k pentru orice m pozitiv Analizând membrul drept al ultimei realţii se constatã cã: (2 1 2 5) ∗ n2p1mm]h[p]p[s=[n]s= − Cu alte cuvinte coeficienţii dezvoltãrilor proiecţiilor semnalului f0(t) pe douã subspaţii succesive Vm-1 şi Vm, adicã sm-1[n] şi sm[n] se pot determina prin filtrare cu filtrul cu rãspuns la impuls h[n] şi prin decimare Fãcând notaţia : [n]s x[n]= 0 rezultã cã secvenţele sm[n] , m=1÷M pot fi obţinute folosind sistemul din figura 2 1 1 11 Aceasta este legãtura dintre sistemele de codare în subbenzi şi teoria seriilor de funcţii "wavelet" care reprezintã subiectul acestui paragraf 20 2 1 2 Legãtura dintre sistemele de codare în subbenzi şi teoria seriilor de funcţii "wavelet" OBSERVAŢII O1 Se calculeazã transformata Fourier, notată cu F, a variantelor translatate şi scalate ale funcţiilor de scalare: 11  ∞ −−  ω−−− xj11 {}()() dxenx22)(nx22F)(ˆ)x(F22 ⋅−ϕ⋅=ω−ϕ⋅=ωϕ=ϕ  ∫ n,1n,1 ∞−   -1 Fãcând schimbarea de variabilã 2x - n = u se obţine : 11 ∞∞ − ω−ω−+ω− nj2uj2)nu(2j {} ()() dueeu2du2eu2)x(F22 =⋅⋅ϕ⋅=⋅⋅ϕ⋅=ϕ ∫∫ n,1 ∞−∞− 11 ∞ ω−ω−ω− nj2uj2nj2 ()() 2ˆe2dueue222 ωϕ⋅⋅=⋅ϕ⋅⋅= ∫ ∞− Deci : − nj2ω )2(ˆe2=)(ˆω ⋅⋅ωϕ n,1ϕ sau:  ω∗ )2n-(kj-  )(ˆek][2nh=)(2ˆ2ω ϕ⋅⋅−ωϕ⋅ ∑   k adicã : ∗ 1 ω )2n-(kj-v  )(ˆen]2[k(h=)(2ˆω ϕ⋅⋅−⋅ωϕ ∑  2k  unde am fãcut notaţia : v [m]h− = m]h[ Se face schimbarea de variabilã k-2n=p : ∗∗ −−ω− pjv)2n(kjv11ω ⋅e]p[h=e]n2k[h ⋅⋅−⋅ ∑∑ pk22 În continuare, dacã facem notaţia : ∗ )2n-(kj-v1 ω ()⋅−=ω ∑ 0en]2[khm k2 2 1 2 Legãtura dintre sistemele de codare în subbenzi şi teoria seriilor de funcţii "wavelet" 21 se poate scrie: )(ˆ)(m=)(2ˆω ⋅ωωϕ 0ϕ v* Se observã cã m0(ω) are semnificaţia de transformatã Fourier în timp discret a secvenţei h[p], de variabilã ω În ultima relaţie se face schimbarea de variabilã 2 ω = u şi avem : uu   ˆm=(u)ˆ ϕ⋅ ϕ   0 22   sau: ωω  ˆm)(m=)(2ˆ ϕ⋅⋅ωωϕ   00 22   Procedând iterativ se poate demonstra cã : ∞ ω  () 0ˆm=)(ˆ ϕ⋅ωϕ  ∏ p0  = 1p2 Dar funcţia de scalare reprezintã de obicei rãspunsul la impuls al unui filtru trece jos De aceea : * 1,=(0)ˆ= 1,=(0)m [p]h 1 ∑ 0ϕ p şi ultima relaţie devine : ∞ ω  m=)(ˆ ωϕ  ∏ p0  = 1p2 În consecinţã, în ipoteza cã produsul din membrul drept converge, rezultã cã ultima relaţie poate fi folositã pentru construcţia unei funcţii de scalare Convergenţa produsului din membrul drept este asiguratã de satisfacerea condiţiei de regularitate amintitã anterior Deci mecanismul de construcţie al unei funcţii de scalare este urmãtorul: a) Se alege un rãspuns la impuls de filtru trece jos h[n] v* b) Se construieşte secvenţa h[n] ) c) Se calculeazã m0(ω d) Se calculeazã ϕ(ω) Acest mecanism de construcţie este remarcabil prin faptul că foloseşte metode de prelucrare în timp discret pentru construcţia unui semnal în timp continuu În legãturã cu analiza multirezoluţie introdusã prin definiţia 1 se poate defini complementul ortogonal al lui Vm în Vm-1 , Wm : WV=V⊕ m1m− Şirul de subspaţii {Wm}m∈ astfel definite reprezintã o descompunere ortogonalã a spaţiului Hilbert al Z 2 semnalelor de energie finitã L(R), 22 2 1 2 Legãtura dintre sistemele de codare în subbenzi şi teoria seriilor de funcţii "wavelet" DEFINIŢIA 2 : Şirul de subspaţii Hilbert închise {Wm}mZ este o descompunere ortogonalã a lui ∈ 2 L(R) dacã sunt îndeplinite condiţiile: Wp i) m≠p => Wm⊥ 2 ii) )R(LV= m" Zm∈ conform 2 În legãturã cu descompunerile ortogonale ale lui L(R) se poate demonstra urmãtoarea teoremã TEOREMA 2 În W 0 existã o funcţie ψ (x) astfel încât : i) mulţimea {ψ(x-n)}n∈ Z sã fie o bazã ortonormalã a lui W0; -m/2-m (2x-n)}n∈ sã fie o bazã ortonormalã a lui Wm pentru orice m ii) mulţimea {ψ m,n(x)= 2 ψZ din Z Funcţia generatoare a acestor baze se numeşte "wavelets mother", iar elementele acestor baze se numesc funcţii "wavelet" OBSERVAŢII : O1 Pot fi demonstrate şi relaţiile : ∗ [][ ][] nmkm2gkn2g− δ=−⋅− ∑ k ∗ [][ ][] nmkm2hkn2h− δ=−⋅− ∑ k care sunt utile pentru descrierea comportãrii în domeniul timp a filtrelor cu rãspunsurile în frecvenţã H(Ω) şi G(Ω) O2 Se determinã caracterizarea în domeniul frecvenţã a funcţiilor "wavelet" În acest scop se calculeazã transformatele Fourier ale celor doi membri ai relaţiei lor de definiţie: 1   ∗ F{2 n)(x 2(2Fk][2ng}x k) −ϕ⋅⋅−=−ψ ∑  k   sau : 1 ω− nj∗ {} )(ˆe2− F2k][2ng(2x k) ϕ⋅⋅−=ωΨ⋅ ∑ k unde, fãcând schimbarea de variabilã 2x-k=u, se obţine : ∞ − xjω F{⋅ k)(2x =} ek)(2x =dx −ϕ−ϕ ∫ -∞ ω+ ku ∞ −ω− 1dukjj ω   =22 ˆe=e(u) ϕ⋅⋅⋅⋅ϕ   ∫ 222   ∞ - 2 1 2 Legãtura dintre sistemele de codare în subbenzi şi teoria seriilor de funcţii "wavelet" 23 şi revenind la relaţia anterioarã: ω   1 ω  ∗ω− nj =)(ˆekj- k][2ng ˆ   ϕ⋅ ⋅−⋅ωΨ⋅  e2 ∑   22    k de unde rezultã relaţia pentru transformata Fourier a lui ψ(x): ω   1 ω  ∗ −− =)(ˆ)n2k(j k][2ng ˆ   ϕ⋅ ⋅−⋅ωΨ  e2 ∑   22  k   Cu notaţia: 1ω ω  *v− pj ⋅   =m21⋅ e[p]g ∑ 22k  ultima relaţie devine: ω ω     ˆm=)(ˆ ϕ ωΨ   1 22    Ţinând seama de expresia transformatei Fourier a funcţiei de scalare expresia transformatei Fourier a funcţiei "wavelets mother" devine: ∞ ω ω    mm=)(ˆ ωΨ    ∏ p01    = 2p22 Aceastã relaţie permite construcţia unei undişoare mamã pornind de la un anumit rãspuns de tipul h[n] O2 Funcţia de scalare se construieşte cu ajutorul filtrului cu rãspunsul la impuls h[n] iar undişoara mamã cu ajutorul filtrului cu rãspunsul la impuls g[n] În continuare se stabileşte legãtura între proiecţiile unui semnal f(x) din V0 pe subspaţii l)(x,)x( Se poate scrie: −ϕψ〈 succesive Vm-1, Wm În acest scop se calculeazã produsul scalar 〉 n,1 ∗ k][2ng=(x)ϕ (x) − ψ ∑ k,0n1,⋅ k sau: ∗∗ ]ln2[g)x(),x(]kn2[gl)-(x,)x(− 〉ϕϕ⋅−〈=〉ϕψ〈 ∑ l,0k,0n,1= k Vom putea scrie astfel :24 2 1 2 Legãtura dintre sistemele de codare în subbenzi şi teoria seriilor de funcţii "wavelet" ∗ l][2ng=(x)− l)(x ⋅−ψ ∑ n,1ϕ l şi : (x)(x),(x)e=(x)eψ 〉ψ〈 ∑ n,1n,111⋅ n Aplicând teorema proiecţiei (Riesz), obţinem : (x),)kx(]k[s(x),f(x)(x),(x)e =〉ψ−ϕ⋅〈=〉ψ〈=〉ψ〈 ∑ n,10n,1n,11 k ∗ −⋅=〉−ϕψ〈⋅= ∑∑ 0n,10]kn2[g]k[s)kx(,(x)(k)s kk Deci coeficienţii dezvoltãrii semnalului e1(x) (care reprezintă eroarea cu care semnalul f1(x) −⋅ aproximează semnalul f0(x)) în baza {ψ 1,n(x)}n∈Z sunt ∑ 0]kn2[g]k[s Însã pentru aceşti k coeficienţi am fãcut notaţia d1[n] în figura 2 1 1 11, deci: −⋅= ∑ 01]kn2[g]k[s]n[d k Procedând prin recurenţã se poate demonstra cã: )x(),x(f]kn2[g]k[s]n[d 〉ψ〈=−⋅= ∑ − n,m1mm k Cu alte cuvinte coeficienţii dezvoltãrii proiecţiei semnalului f(x) din V0 pe subspaţiul Wm, se pot determina prin filtrare cu un filtru cu rãspunsul la impuls g[n] şi prin decimare pornind de la proiecţia sa pe spaţiul Vm-1 Se constatã cã pentru m=1,M, secvenţele dm[n] pot fi obţinute folosind sistemul din figura 2 1 1 11 Cu alte cuvinte, folosind acest sistem, poate fi determinată aproximarea de rezoluţie M a unui semnal precum şi eroarea produsă de această aproximare OBSERVAŢII : O1 În lucrarea sa, , Ingrid Daubechies determinã toate rãspunsurile la impuls de filtre FIR, h[n] şi g[n] care satisfac o anumitã condiţie de regularitate Alte condiţii de regularitate sunt prezentate în … Aceste rãspunsuri la impuls sunt tabelate şi sunt clasificate dupã lungimea lor De exemplu filtrul DAU2 este unul cu lungimea rãspunsului la impuls egalã cu 4 Dezavantajul major al acestor filtre este cã nu au caracteristici de fazã liniare Cu cât lungimea filtrelor creşte, cu atât erorile de rotunjire ale coeficienţilor sunt mai însemnate O2 Dacã se abandoneazã ipoteza de ortonormalitate a mulţimii {ϕ (x-n) }n∈ Z, considerându-se cã aceasta este doar o bazã Riesz, atunci teoria prezentatã în acest paragraf poate fi generalizatã Aceastã generalizare a fost fãcutã în obţinându-se clasa undişoarelor biortogonale cu suport compact Filtrele corespunzãtoare sunt tot de tip FIR dar de aceastã datã filtrele de reconstrucţie au lungime diferitã de filtrele de sintezã Ele pot fi filtre cu fazã liniarã Numeroase exemple de rãspunsuri la impuls de filtre din acestã clasã sunt prezentate în lucrãrile citate O3 Avantajul pentru compresie al abordãrii bazate pe utilizarea undişoarelor ortonormale asupra celei bazate pe undişoare biortogonale este prezentat în continuare Folosind notaţiile utilizate pânã aici, putem scrie: 2 1 2 Legãtura dintre sistemele de codare în subbenzi şi teoria seriilor de funcţii "wavelet" 25 M (x)e+(x)f=(x)f∑ mM0 1=m Astfel: MM2 〉〈 ∑ mMmM0=(x)e+(x)f(x),e+)x(f=(x)f∑ 1=m1=m MMM =〉〈+〉〈= ∑∑ (x)e+(x)f,)x(f∑ mMmmMM(x)e+(x)f(x),e 1=m1=m1=m MMMM ∗∗ =〉〈+〉〈+〉〈〉〈= ∑∑∑ mkmMmMMM(x)e,(x)e(x)e),x(f(x)e),x(f+(x)f,)x(f∑ 1=m1=k1=m1=m 2 MM2   〉〈+= + ∑   mmMM(x)e(x)e),x(fRe2)x(f∑ 1=m1=m  În aceastã relaţie, deoarece avem: (x)e(x)f÷ , m M1= ⊥ mM∀ va rezulta şi: M (x)e(x)f÷ , m M1= ⊥ ∑ mM∀ 1m= iar în ceea ce priveşte norma lui f0(x) putem scrie: 2 M2 2 += kM0)x(e)x(f)x(f∑ 1k= apoi, folosind proprietãţi ale produsului scalar: 2 MMMMM =〉〈=〉〈= ∑∑∑∑∑ lklkk)x(e),x(e)x(e),x(e)x(e ===== 1l1k1l1k1k M2MM =〉〈= ∑∑∑ kkl)x(e)x(e),x(e === 1k1k1l Revenind, se poate spune cã am demonstrat cã: M222 += ∑ kM0)x(e)x(f)x(f = 1k Pe baza relaţiei lui Parseval se poate scrie relaţia în timp discret echivalentã relaţiei anterioare Aceasta este: M222 += ∑ kM0]n[d]n[s]n[s = 1k26 2 1 2 Legãtura dintre sistemele de codare în subbenzi şi teoria seriilor de funcţii "wavelet" Ultimele două relaţii pot fi privite ca forme ale principiului conservării energiei, specific pentru transformări ortogonale Aceste relaţii nu sunt valabile în cazul funcţiilor "wavelet" biortogonale De aceea se poate afirma cã este de preferat sã se utilizeze undişoarele ortogonale atunci când sunt necesare aproximãri de eroare medie pãtraticã minimã Se poate afirma şi că transformările discrete bazate pe funcţii "wavelet" biortogonale nu sunt ortogonale De aceea ele sunt redundante Iată un motiv serios ca astfel de transformări să nu fie folosite la compresia de date O4 Teoria expusã poate fi generalizatã şi pentru codoare în subbenzi cu structurã arborescentã simetricã Aceastã generalizare este fãcutã în O5 Teoria expusã poate fi generalizatã şi pentru codoare în subbenzi care utilizeazã decimatoare şi interpolatoare cu constante M, diferite de 2, O6 O altã direcţie de dezvoltare a codoarelor în subbenzi este cea bazatã pe utilizarea filtrelor de analizã şi sintezã RII, , sau a celor variabile în timp 2 1 3 Transformarea "wavelet" discretã TUD În paragraful anterior s-a stabilit legãtura dintre seriile de funcţii "wavelet" şi tehnica codãrii în subbenzi Cu ajutorul sistemului din figura 2 1 1 11 poate fi introdusã noţiunea de transformare "wavelet" discretã Acest sistem transformã secvenţa x[n] în secvenţele sM[n] şi d1[n], d2[n], ,dM[n] Fie y[n] secvenţa obţinutã prin concatenarea acestor secvenţe : y[n] = ,[n]d,[n]{s [n]d, } M1M Operaţia : y[n]x[n]→ poartã numele de transformare "wavelet" discretã DWT sau transformare undişoară discretă ( TUD ) Operaţia: y[n]→ x[n] care poate fi implementatã de sistemul din figura 2 1 1 16 poartã numele de transformare "wavelet" discretã inversã IDWT sau transformare undişoară discretă inversă (TUDI) Se poate demonstra cã TUD este liniarã şi ortogonalã În continuare se prezintã, pe un exemplu, algoritmul lui Mallat de calcul al TUD, Fie X vectorul secvenţei de intrare: ]8[s 0   ]7[s 0  S=X 0=   #   ]1[s 0  Se considerã cã lungimea filtrelor h[n] şi g[n] este 4 Primul pas al algoritmului este descris de relaţia: M=Y X 01 unde matricea M0 este datã de relaţia: 2 1 3 Transformarea "wavelet" discretã TUD 27 0000h h h h     0000h h h h  −−    00h h h h 00    00h h h h 00 −−  M =   0 h h h h 0000     h h h h 0000− −     h h 0000h h     h h 0000h h − −   Se constatã cã se obţine: T [s=Y d ]3[s ]3[d s d s d ] 111111111 Prin permutãri rezultã: T 1 () [s=Y ]3[s s s d ]3[d d ]d 111111111 care este un vector obţinut prin concatenarea secvenţelor s1[n] şi d1[n] Separând aceste secvenţe se obţin vectorii: T 1 () [s=X ]3[s s ]s 11111 T 2 () [d=X ]3[d d ]d 11111 Fie M1 matricea obţinutã prin restrângerea matricii M0 la sfertul sãu din stânga sus : h h h h     h h h h −−   =M   1 h h 00     h h 00 −     Cel de-al doilea pas al algoritmului este descris de relaţia: 1 112XM=Y şi rezultatul este: T ]2[[s=Y ]2[d ]1[s ]d 22222 În mod analog rezultã prin permutãri:28 2 1 3 Transformarea "wavelet" discretã TUD T 1 () ]2[[s=Y ]1[s ]]d2[d 22222 unde dacã separãm secvenţele s2[n] şi d2[n] obţinem: TT 12 ()() ]2[[s=X ]]1[s şi ]]d2[[d=X 222222 122 Acum, cu ajutorul vectorilor X2, X2 şi X1 se construieşte vectorul Y: TTT  221T ()()() 122XXX=Y   Aceastã relaţie reprezintã rezultatul aplicãrii transformãrii "wavelet" discrete vectorului X Analizând numãrul de operaţii efectuate se constatã cã pentru primul pas al algoritmului au fost necesare 32 de înmulţiri şi cã pentru al doilea pas al algoritmului au fost necesare 16 înmulţiri, în total 48 Dacã vectorul X ar fi avut N elemente atunci s-ar fi efectuat un numãr de înmulţiri de ordinul 4N Dacã s-ar fi folosit filtre de lungime L atunci acest numãr ar fi fost LN Pentru N suficient de mare se constatã cã numãrul de înmulţiri necesare este inferior lui Nlog2N, adicã transformarea "wavelet" discretã poate fi efectuatã mai rapid decât FFT a aceleiaşi secvenţe Acesta este motivul pentru care aceastã transformare se mai numeşte şi transformarea "wavelet" rapidã Pentru calculul transformãrii inverse trebuie aplicate operaţiile descrise anterior în ordine TT inversã Bineînţeles în locul matricilor M0, M1, trebuiesc folosite matricile M0, M1, etc Ca orice transformare, care se aplicã unei secvenţe de duratã finitã, şi acestã transformare prezintă erori la capetele intervalului de timp considerat Pentru primele eşantioane ale secvenţei x[n], filtrele h[n] şi g[n] încã nu sunt în regim permanent iar, la terminarea secvenţei x[n], filtrele folosite nu sunt încã relaxate Pentru diminuarea acestor erori, sunt prezentate diferite metode în Dacã se doreşte realizarea unei TUD pe blocuri atunci, pentru diminuarea erorilor provocate de problemele de la marginile blocurilor, se poate aplica una din metodele denumite "overlap and add" sau "overlap and save" Transformarea TUD este caracterizatã de câţiva parametri Unul dintre aceştia este expresia rãspunsului la impuls h[n], (adică a funcţiei de scalare şi respectiv a funcţiei "wavelets mother") Con- form , acesta trebuie corelat cu forma semnalului x[n] În cazul în care semnalul x[n] variazã rapid este preferabil sã se utilizeze un filtru cu rãspuns la impuls mai scurt Existã aplicaţii în care este necesar ca rãspunsul la impuls h[n] sã se modifice pe parcursul calculului transformatei TUD Una dintre preocupările cele mai interesante ale autorului acestei teze a fost cea mai bună alegere a răspunsului la impuls h[n], pe baza semnalului de prelucrat, pentru maximizarea factorului de compresie, la o distorsiune de reconstrucţie impusă Această tehnică este prezentată în Un alt parametru al transformãrii este numărul său de iteraţii M În exemplul dat pentru descrierea algoritmului de calcul al transformãrii s-a folosit pentru M valoarea sa maximã posibilã Nu este însã necesar ca lungimea secvenţei sM[n] din structura vectorului Y sã fie minimã (adicã 2) Existã aplicaţii în care lungimea secvenţei sM[n] din structura vectorului Y este mai mare În sfârşit, un ultim parametru al TUD este lungimea secvenţei de intrare, N Aceasta trebuie sã fie o putere a lui 2 Pentru o alegere convenabilã este posibil sã avem nevoie de o transformare pe blocuri Pe lângă utilizarea sa la compresie, transformarea "wavelet" discretă mai are şi alte aplicaţii Câteva dintre acestea sunt prezentate în: … 2 1 3 Transformarea "wavelet" discretã TUD 29 2 1 4 Pachete de funcţii "wavelet" În continuare se prezintă o generalizare a noţiunii de analiză multirezoluţie care contribuie la dezvoltarea teoriei funcţiilor "wavelet" Este vorba de noţiunea de pachet de funcţii "wavelet" Aceasta conduce la o nouă transformare "wavelet" discretă, transformarea cu pachete de funcţii "wavelet" discretă (TPWD), care generalizează TUD Parametrii unei TUD sunt numărul de iteraţii şi undişoara mamă utilizate Alegerea acestor parametri în acord cu aplicaţia considerată este decisivă pentru găsirea celei mai bune rezolvări a problemei respective Utilizarea TPWD ajută la rezolvarea acestei probleme de alegere O generalizare simplă dar foarte utilă a noţiunilor de funcţie "wavelet" respectiv de analiză multirezoluţie apare în cazul pachetelor de funcţii "wavelet" Pentru a introduce această noţiune este utilă folosirea următoarei notaţii: e1e− mω = m m , e = 1,0 () () ()ωω 1oe Observaţia fundamentală care stă la baza construcţiei pachetelor de funcţii "wavelet" este aşa numitul {} −τ este o bază ortonormală a artificiu de împărţire Se presupune că mulţimea de funcţii () Zkkf∈ ττ 11   oo11 )(f = kf şi )(f∈ = kf , Zk −⋅τ−⋅τ spaţiului Hilbert S Atunci funcţiile   kk 2222   ω ω     e fF, = m fF constituie de asemenea o bază ortonormală a spaţiului S, (){} ω unde{}     e 22     1o {} ),(fτ )(f τ kk∈ k Z O analiză multirezoluţie clasică este obţinută împărţind spaţiile Vm, folosind artificiul descris mai sus în spaţiile Vm - 1 şi Wm - 1 şi apoi făcând la fel, într-un mod recursiv, pentru spaţiul Vm - 1 Pachetele de funcţii "wavelet" sunt funcţiile elemente ale bazelor ortonormale care se obţin dacă se foloseşte artificiul de împărţire şi pentru spaţiile Wm, cu alte cuvinte dacă se utilizează un sistem de codare în subbenzi cu structură simetrică Pornind de la spaţiul Vm, se obţin, după aplicarea de L ori a artificiului de împărţire, funcţiile (elemente ale unor baze ortonormale): () Lm− LmLL− () =2− k22 ()τψτψ ,e ;e ,m k ,e e L1L130 2 1 4 Pachete de funcţii "wavelet" Figura 2 1 4 1 Schemă pentru generarea pachetelor de funcţii "wavelet" cu: L  − Ll-L ()() (){} ωϕ⋅ωωψ  ,e2 e =F me 2 F lL1  l = 1 L Astfel, după L împărţiri, se obţin 2 funcţii de bază şi translatatele lor cu întregi multipli de Lm− 2 ca şi elemente ale bazei ortonormale a spaţiului Vm Legătura dintre pachetele de funcţii "wavelet" şi funcţiile de scară respectiv funcţiile "wavelet" corespunzătoare este: LL )(τ)( = )()(τ = τϕψτψ şi ,oψo , o,1 ,o , De fapt nu este necesar să se împartă fiecare subspaţiu pentru fiecare valoare a lui m În figura 2 1 4 1 se prezintă o modalitate de împărţire a spaţiului V3 corespunzătoare schemei care generează pachete de funcţii "wavelet" În figură sunt notate cu * spaţiile care aparţin unei analize multirezoluţie: ⊕⊕ V⊕ = o12o3WWWV Cu ° s-au notat spaţiile care pot participa la construcţia unui pachet de funcţii "wavelet" Baza ortonormală a lui Vo, corespunzătoare pachetului de funcţii "wavelet" ales în acest exemplu este 321 {} k4− , k2 , k , k ()() () ()τψ−τψ−τψ−τψ Un alt pachet de funcţii "wavelet" poate ,11,1o∈ ,o ,1o ,o Zk1 fi construit dacă se aleg funcţiile notate cu + în figura 2 1 4 1 Acestui nou pachet de funcţii "wavelet" îi corespunde următoarea bază ortonormală a lui V3, 3321 {} k4− , k2 , k , k ()() () ()τψ−τψ−τψ−τψ ,oo,11∈ ,1 ,oo ,1 Zk1 Transformările "wavelet"discrete directă şi inversă, corespunzătoare primului exemplu de pachet de funcţii "wavelet" dat mai sus sunt prezentate în figura 2 1 4 2 2 1 4 Pachete de funcţii "wavelet" 31 Figura 2 1 4 2 Transformările "wavelet" discrete, directă şi inversă corespunzătoare primului exemplu de pachet de funcţii "wavelet" Principalul avantaj al pachetelor de funcţii "wavelet" este că avem mult mai multă liberate în alegerea bazei în care să descompunem semnalul pe care dorim să-l analizăm Având la dispoziţie un număr mai mare de subbenzi, se poate îmbunătăţi localizarea frecvenţială a componentelor semnalului de analizat Există criterii de alegere a bazei în acord cu semnalul de analizat M Wikerhauser a propus un astfel de criteriu Procedura introdusă de el se numeşte "alegerea celei mai bune baze" O prezentare exhaustivă a acestui concept este făcută în Teoria pachetelor de funcţii "wavelet" este prezentată şi în 2 1 4 1 Alegerea celei mai bune baze Poate fi aleasă în consecinţă o submulţime cu caracteristici de bază, adaptată la un semnal particular sau la o problemă particulară Când există posibilitatea alegerii unei baze pentru reprezentarea unui anumit semnal atunci poate fi căutată cea mai bună bază din punctul de vedere al o mulţime unui anumit criteriu În acest mod se obţine baza adaptată la semnalul considerat Fie B numărabilă de baze ale spaţiului Hilbert separabil X Se prezintă o listă de propriet ăţi utile pentru mulţimea B - Calculul rapid al produselor scalare cu elementele bazelor din B ,32 2 1 4 1 Alegerea celei mai bune baze - Localizarea temporală bună a elementelor bazelor din B, - Localizarea frecvenţială bună a elementelor bazelor din B , - Independenţă, astfel încât să nu existe multe elemente ale unei baze care să se potrivească cu o anumită porţiune din semnalul de analizat Pentru a alege cea mai bună bază este necesar să se aprecieze în ce măsură fiecare bază din B are proprietăţile enunţate mai sus Înainte de a putea defini o reprezentare optimă, este necesar să se poată aprecia care este costul memorării unei anumite reprezentări Vom numi acest cost, cost de informaţie Fiind dată secvenţa [][] uk se poate defini o funcţională de cost de informaţie corespunzătoare secvenţei uk prin:  []() (u)Mµ = ku , 0 = 0 µ  ∑  ∈ k Z unde µ este o funcţie reală definită pe [0, ∞) ku, = x,b unde bk este cel de al k-lea Pentru orice element x ∈ X se defineşte [] k ) M x,b S- Costul de informaţie al reprezentării lui x în baza B este ( element al bazei B din B k a definit în acest mod funcţionala Mx pe B :   :M RB , MB x,b →→   kx   S-a obţinut în acest mod costul de informaţie M al lui x în baza B Cea mai bună bază din B pentru   M x,b semnalul x, în raport cu costul de informaţie M, este acea bază B pentru care   k   are valoarea minimă În continuare se prezintă câteva exemple de funcţionale de cost de informaţie Exemplul 1 Numărul de eşantioane peste un anumit prag un a căror valoare obţinută şi se numără elementele din secvenţa [] Se fixează un prag ε depăşeşte pragul  w , w ε≥  (w) = µ  0 , w ε ,ny daca ny P [] nyˆ =  0 , restin  nyˆ secvenţa obţinută prin ordonarea descrescătoare a eşantioanelor semnalului []nyˆ Eroarea Fie [] o nx prin semnalul []nxˆ este proporţională cu: medie pătratică de aproximare a semnalului [] − 1N 2 [] ε ∑ = okyˆ k = M Valoarea lui M se obţine prin rezolvarea ecuaţiei: E x maxε = M∈ 100Z În continuare se prezintă un exemplu de aplicare a acestei metode În figura 2 2 1 2, este nx (în partea de sus) şi corespunzător []nxˆ (în prezentat un exemplu de semnal de compresat, [] nxˆ Se partea de jos) Este indicat numărul de eşantioane din care a fost reconstruit semnalul [] nx are 512 eşantioane constată că s-a obţinut o valoare mare a factorului de compresie Semnalul [] Figura 2 2 1 2 Compresia unui semnal dreptunghiular Factorul de compresie este de 8 Recent a fost construit un nou dicţionar timp-frecvenţă de baze ortonormale asemănător dicţionarelor de pachete de funcţii "wavelet", Elementele sale se generează cu ajutorul unor42 2 2 1 Analiza statistică a TUD transformări Karhunen-Loeve localizate Şi în acest dicţionar elementele necesare pentru descompunerea unui anumit semnal pot fi găsite folosind algoritmul de căutare al celei mai bune baze deja prezentat În se demonstrează superioritatea TUD asupra transformării Karhunen-Loeve la compresia semnalelor care pot fi modelate prin procese aleatoare ne-Gaussiene O formulã analoagã relaţiei (2 2 1 1) poate fi demonstratã şi în cazul semnalelor sm[n], m=1÷M Aceasta este : 2 m (2 2 1 7) {}(){} +Ωϕ⋅π+Ω↔− xxs)p2(F)p2(2rF]lk[Rπ m∑ p Demonstraţia este identicã cu cea pentru relaţia (2 2 1 1) În continuare se calculeazã mediile şi dispersiile semnalelor aleatoare sm[m] şi dm[n], m=1÷ M Astfel pentru semnalul dm[n] : ∞ ∗ }(t)dtx(t){E=}(t),x(t){E=}[n]d{Eψ 〉ψ〈 ∫ km,k,mm⋅ -∞ sau, aplicând din nou teorema lui Fubini : ∞∞ ∗∗ (t)dtM=(t)dt}x(t){E=}[k]dE{ψ ψ⋅ ∫∫ k,mnk,mm⋅ ∞ ∞ unde cu Mn s-a notat media semnalului aleator x(t) Ultima relaţie se mai poate scrie :  ∗ (0)FM=}[k]d{Eψ  k,mnm⋅  Dar : m m − mk2jω {}{} )2(Fe2=)(F2ω ⋅⋅ωψ k,mψ şi, revenind : m (2 2 1 8) {} (0)F2M=}[k]dE{2ψ ⋅ nm⋅ Dar : {} {} (0)m=(0)F(0)m=(0)Fϕ ψ 11⋅ S-a demonstrat în capitolul anterior că: 22(2 2 1 9) 2=)G()H(Ω +Ω 2 2 1 Analiza statistică a TUD 43 unde: )H(hΩ si )G(g Ω↔ nn↔ Utilizând şi relaţiile: ∗ v [n]hΩ )(m2 0↔ ∗ v [n]g 2 Ω)(m 1↔ vom putea scrie : ∗ )(H=)(m2Ω 0Ω ∗ )(G=)(m2Ω 1Ω Relaţia (2 2 1 9) se va scrie, pentru Ω=0 : 22(2 2 1 10) 1=)0(m+)0(m 10 Dar: (0)m = 1 0 şi pe baza relaţiei (2 2 1 10) vom obţine : ∗ (2 2 1 11) =)0(m= 0 ; 0[p]g 1∑ p şi deci: (0)Fψ = 0 {} În final, relaţia (2 2 1 8) se scrie: (2 2 1 12) 0=[k]}E{d÷ , m M1= m S-a demonstrat cã toate semnalele aleatoare dm[n] sunt de medie nulã indiferent de m Acest lucru era de aşteptat având în vedere cã aceşti coeficienţi sunt obţinuţi prin folosirea filtrelor cu rãspunsurile la impuls g[n] (care sunt filtre trece sus) În continuare se calculeazã dispersiile acestor semnale Având în vedere cã media lor este nulã, se obţine : 2 R=}[k]d{E mdm sau, pe baza relaţiei (2 2 1 1):44 2 2 1 Analiza statistică a TUD 2 1 m2 (2 2 1 13) {}{} du)u(F)u2(rF=}[k]d{Eψ ∫ xxm⋅ 2π R Aceasta este relaţia care exprimã dispersiile semnalelor dm[n] pe baza densitãţii spectrale de putere a semnalului aleator x(t) OBSERVAŢII O1 Dispersiile semnalelor aleatoare dm[n] pot fi minimizate prin alegerea judicioasã a funcţiei ψ (t) (în acord cu densitatea spectralã de putere a semnalului aleator) 2 O2 Dacã x(t) este un zgomot alb de medie nulã şi dispersie σ atunci: 2 {} ω xx=)(rFσ şi: 22 21)+(2p2π π σ 22σ {}{} =}[k]d{Eσ )u(F =du du)p2u(F π+ψ⋅ψ⋅ ∑∑ ∫∫ m= 22π p1)-(2ppπ π−π 2 Deci în cazul în care x(t) este un zgomot alb de medie nulã şi dispersie σ atunci semnalele aleatoare 2 dm[n] sunt tot de tip zgomot alb în timp discret de medie nulã şi dispersie σ O3 Pentru m→ -∞ relaţia (2 1 1 13) devine : 2 {} (0)rF=}[k]d{E − xx∞ (2 2 1 14) Aceastã relaţie descrie comportarea asimptoticã a dispersiilor semnalelor aleatoare dm[n] În continuare se determinã momentele de ordinul I şi II ale semnalelor aleatoare sm[n]: ∞  ∗ {}{ } x(t)E=[k]sEdt(t)x(t)E=(t), ϕ⋅〉ϕ〈  ∫ k,mk,mm ∞ -  adicã : ∞∞ ∗∗ dt(t)M=dt(t)}x(t){E=}[k]s{Eϕ ϕ ∫∫ k,mnk,mm⋅ ∞ ∞ unde cu Mn s-a notat media semnalului aleator x(t) Ultima relaţie se mai poate pune sub forma : *  (0)FM=}[k]s{Eϕ ⋅  k,mnm  Deoarece se poate scrie: 2 2 1 Analiza statistică a TUD 45 m − mk2jmω {}{} )2(Fe2=)(F2ω ⋅⋅ωϕ k,mϕ vom avea : mm 22(2 2 1 15) {} ϕ⋅⋅ nnm2M=(0)F2M=}[k]s{E⋅ Deci media semnalelor sm[k] descreşte cu creşterea lui m în valori absolute (conform convenţiei făcute în capitolul anterior m ia valori negative) Dispersiile acestor semnale sunt : 22 }[k]s{E R=}[k]s{E− msm m Valoarea autocorelaţiei în origine este: 2 − m1 {}{} ϕ ∫ xxsdu)u(F)u2(rF= R m π R2 şi obţinem : 2 2mm21− (2 1 1 16) {}{} −ϕ ∫ )u(F)u2(rF=}[k]s{E⋅ nxxmM2du R2π Dacã semnalul x(t) este de medie nulã atunci: 2 1 − m2 (2 1 1 17) {}{} )u(F)u2(rF=}[k]s{Eϕdu ∫ xxm⋅ 2π R OBSERVAŢII : O1 Dispersiile semnalelor aleatoare sm[n] pot fi minimizate prin alegerea judicioasã a funcţiei de () ω scalare ϕ(t) (în acord cu densitatea spectralã de putere {} xxrF) 2 O2 Dacã x(t) este un zgomot alb de medie nulã şi dispersie σ atunci: 2 {} ω xx=)(rFσ şi: 2 221)+(2p2π π σ 22σ {} {} ϕ⋅ =π+ϕ ∑ ∑ ∫∫ mdu)p2u(F=du)u(F=[k]}{sEσ π p1)-(2pp22π π π− 2 Deci în cazul în care x(t) este un zgomot alb de medie nulã şi dispersie σ atunci semnalele aleatoare 2 sm[n] sunt tot de tip zgomot alb în timp discret de medie nulã şi dispersie σ46 2 2 1 Analiza statistică a TUD O3 Pentru m→ -∞ relaţia (2 2 1 17) devine: 2 (0)rF=[k]}E{s {} xxm Aceastã relaţie descrie comportarea asimptoticã a dispersiilor semnalelor aleatoare sm[n] O4 Condiţia: 0=E{x(t)} 2 previne divergenţa şirurilor E{sm[k]} şi E{sm[k]} când m→-∞ O5 Dacã x(t) este un semnal aleator şi staţionar de medie nulã atunci secvenţele sm[n] şi dm[n] converg asimptotic (pentru m→-∞) la semnale aleatoare de tip zgomot alb de medie nulã şi dispersie {}() 0rF xx Pe lângă proprietatea de albire TUD are şi proprietatea de Gaussianizare Chiar dacă semnalul a cărui TUD se calculează are o densitate de probabilitate ne-Gaussiană, densităţile de probabilitate ale semnalelor s şi d sunt Gaussiene Această proprietate este ilustrată în figura 2 2 1 3 În partea de sus a acestei figuri este reprezentată densitatea de probabilitate a unui semnal distribuit uniform În partea de jos a figurii este reprezentată densitatea de probabilitate a semnalului obţinut în urma calculării TUD a semnalului distribuit uniform Se constată că semnalele s şi d, din componenţa tranformării calculate sunt distribuite Gaussian Figura 3 1 1 3 Efectul de Gaussianizare al TUD 2 2 2 Analiza statistică a TPWD 47 2 2 2 Analiza statistică a TPWD Spre deosebire de analiza statistică făcută în paragraful anterior, care s-a bazat pe proprietăţile matematice specifice teoriei funcţiilor "wavelet", analiza statistică din acest paragraf se bazează pe teoria codării în subbenzi Se consideră pentru început celulele de bază ale unui sistem de codare în subbenzi, reprezentate în figura 2 2 2 1 msd mss1−m −m 1 h2g 2 Figura 2 2 2 1 Cele două celule de bază pentru construcţia unui codor în subbenzi Cu ajutorul filtrului h se generează coeficienţi de tip s iar cu ajutorul filtrului g coeficienţi de tip d Relaţiile intrare-ieşire pentru cele două sisteme sunt: ∞ ∞ [] [ ] [] [] [ ] [] −⋅=−⋅= ∑∑ −− 1mm1mmkn2skgnd,kn2skhns (2 2 2 1) −∞=−∞= kk Se calculează autocorelaţiile statistice ale semnalelor de la ieşire, considerând semnalele de intrare staţionare (proprietate demostrată în paragraful anterior) Pentru sistemul reprezentat în stânga în figura 2 2 2 1 : )1 2 2 2(   ∞∞   [] [][]{}[ ] [] [ ] [] = ⋅−⋅⋅−=⋅=− ∑∑   −− 1m1mmmmsqhql2sphpk2sElsksElkr −∞=−∞= qp     ∞ {} [] [] [ ] [ ] −⋅−⋅⋅ ∑ −− 1m1mql2spk2sEqhph −∞= q,p Dar valoarea medie din membrul drept reprezintă tocmai autocorelaţia statistică a semnalului de la intrare, motiv pentru care ultima relaţie se mai scrie: ∞ ] [] []()( )[] −−−⋅⋅=− [ ∑ − 1msmsqplk2rqhphlkr (2 2 2 2) −∞= q,p O relaţie similară poate fi scrisă pentru sistemul din dreapta figurii 2 2 2 1 : ∞ ] [] []()( )[] −−−⋅⋅=− [ ∑ − 1msmdqplk2rqgpglkr (2 2 2 3) −∞= q,p sau ţinând seama de relaţia anterioară:48 2 2 2 Analiza statistică a TPWD [] =− mdlkr ∞ 2 (2 2 2 4) [] [][][ ][ ] ()( )( ) −−−−−⋅⋅⋅⋅ ∑ − 22112ms2211qpqp2lk2rqgphqgpg −∞= 2121q,q p,p După cum s-a arătat în capitolul anterior calculul TPWD se bazează pe o schemă de forma: hg s d hgg h ss sd ds dd Figura 2 2 2 2 Schema de calcul a TPWD Primele două iteraţii După modelul relaţiei (2 2 2 4) se poate scrie expresia autocorelaţiei statistice a semnalului obţinut după efectuarea a "a" filtrări trece sus şi a "b" filtrări trece jos:   a ∞   () [ ] [][]()() qhphqgpglkr ⋅⋅⋅⋅Π=− ∑  kk)s ss()d dd( αα  1kba = −∞= q,p,q,p, ,q,p,q,p  aa2211 αα   + a1a []} () ( ) ( )( ) qpqp2 qp2lk2r −−−−−−−−⋅ αα aa111b − )s ss( (2 2 2 5) S-a obţinut dependenţa autocorelaţiei statistice a semnalului obţinut după efectuarea a "a" filtrări trece sus şi a "b" filtrări trece jos de autocorelaţia statistică a semnalului obţinut după efectuarea a "b-1" filtrări trece sus Dar această autocorelaţie statistică a fost calculată în paragraful anterior, r [] lks− 1b− De aceea se pot utiliza rezultatele analizei asimptotice deja făcute pentru a face analiza asimptotică a =− Acest TPWD Pentru TPWD implicată în relaţia (2 2 2 5) numărul de iteraţii este: bam+ număr tinde la infinit dacă b tinde la infinit În continuare se calculează limita membrului stâng al relaţiei (2 2 2 5) când b tinde la infinit Această limită va depinde de limita autocorelaţiei statistice din membrul drept Dar aceasta poate fi calculată pe baza analizei asimptotice efectuate în paragraful anterior Se poate scrie: + a1a () ( ) ( )( )[] qpqp2 qp2lk2rlim =−−−−−−−− αα− aa111bs →∞ b + a1a [] {}() ( ) ( ) ( )( ) qpqp2 qp2lk20rF −−−−−−−−δ⋅ αα aa11xx sau, ţinând seama de staţionaritatea semnalului aleator cu funcţia de autocorelaţie statistică [] lkr− şi de proprietăţile impulsului unitar: s∞ 2 2 2 Analiza statistică a TPWD 49 2 a∞     () [] [][][] lk0rF)phpg(lkrlim− {}()δ⋅⋅ ⋅Π=− ∑ xxk)s ss()d dd( α ba =→∞ −∞= p,p, ,p,p1kb a21 α (2 2 2 6) () Deci semnalul () obţinut în urma a a filtrări trece sus şi a b filtrări trece jos devine bs ssd dd a un zgomot alb în timp discret când b tinde la infinit Iată de ce se poate afirma că TPWD se comportă asimptotic la fel ca şi TUD convergând la transformarea Karhunen-Loeve Şi analiza asimptotică a ()()( ) () semnalelor de formele: () abs ssd dd , abd dds ss sau ()abds dsdssd sdsd conduce la aceleaşi rezultate () În continuare se calculează media şi dispersia semnalului aleator () bas ssd dd Media este dată de relaţia: ∞     [] []()() pn2s ssd ddpgEMb1a= −⋅= − ∑    ()() ba11s ssd dd    −∞= 1p  (2 2 2 7) ∞ [] 0pgM= ⋅= ∑ ()() b1a1s ssd dd− = 1p−∞ deoarece suma coeficienţilor răspunsului la impuls al filtrului trece sus g este nulă Deci media semnalului aleator considerat este nulă În continuare se determină dispersia sa: 2 [] 0r ==σ ()() ()() s ssd dds ssd ddbaba a ∞   [][] ()()() qhphqgpg ⋅⋅⋅⋅Π= ∑ αα kk  = −∞= q,p,q,p, ,q,p,q,p1k  aa2211 αα a [] } ()( )( ) qpqp2 qp2r =−−−−−−−⋅ αα aa111b − )s ss( 2 a  2 ∞  () [] phpg +σ⋅Π () −α 1bsk  = ∑ = 1k  −∞= p,p, ,p,p a21 α a ∞    [][]()()() qhphqgpg ⋅ ⋅⋅⋅Π+ ∑ αα kk   = −∞=≠≠≠≠ qp,q,pqp,q,p, ,qp,q,p,qp,q,p1k   aaaa22221111 αααα a [] qpqp2 qp2r −−−−−−− ()( )( ) αα− aa111bs sau:50 2 2 2 Analiza statistică a TPWD 2 a∞  22   [] phpg(+ ()() ⋅Πσ=σ ∑ k1bsα   ()() s ssd ddba− = p,p, ,p,p1k−∞   a21= α a∞     [][] qhphqgpg⋅ ( )()() ⋅⋅⋅Π+ ∑ α kkα   = ≠≠≠≠ qp,q,pqp,q,p, ,qp,q,p,qp,q,p1k−∞   aaaa22221111= αααα a [] ()( )( ) )qpqp2 qp2− −−−−−−ρ α− aa111bsα (2 2 2 8) unde s-a notat cu ρ coeficientul de autocorelaţie: () 1bsxr− x= () ρ 21bs− σ 1bs− Formulele (2 2 2 7) şi (2 2 2 8) sunt foarte importante deoarece pot fi utilizate, aşa după cum s-a arătat în , pentru cuantizarea optimală (neuniformă) a semnalului care a suferit transformarea wavelet Avantajul lor asupra formulelor stabilite în paragraful anterior (pentru cazul particular al TUD) rezidă în forma lor recurentă Asimptotic: 0M= ()() s ssd dda∞ şi: 2 a∞  2   []()() {}() 0rFphpg∑ ⋅Π=σ ⋅ xxkα   ()() s ssd dda∞ = p,p, ,p,p1k−∞   a21= α formulă care dă dispersia zgomotului alb la care converge şirul dispersiilor coeficienţilor TPWD atunci când numărul de iteraţii al acesteia tinde la infinit În consecinţă dacă numărul de iteraţii al TPWD este suficient de mare atunci la fiecare nouă iteraţie a acesteia se obţin nişte coeficienţi care reprezintă eşantioanele unui zgomot alb de medie nulă şi dispersie dată de ultima relaţie În consecinţă cuantizarea optimală a acestor coeficienţi poate fi realizată folosind această valoare pentru dispersia lor În figura 2 2 2 3 se ilustrează proprietatea de albire a TPWD În partea de sus este prezentată densitatea spectrală de putere a semnalului de intrare Acesta este un zgomot colorat, obţinut prin filtrarea trece bandă a unui zgomot alb În partea de jos se prezintă densitatea spectrală de putere a semnalului obţinut în urma calculului TPWD a semnalului a cărui densitate spectrală de putere este prezentată în partea de sus Figura 2 2 2 3 Efectul de albire al TPWD 2 2 2 Analiza statistică a TPWD 51 Se constată că densitatea spectrală din partea de jos are o anvelopă mult mai asemănătoare cu o constantă, aşa cum arată densitatea spectrală de putere a unui zgomot alb 2 2 3 Analiza statistică a TPC Transformarea cu pachete cosinusoidale, TPC, este o combinaţie între transformarea cosinus discretă (TCD) şi teoria pachetelor de funcţii "wavelet" În cazul acestei transformări se relizează o segmentare a suportului semnalului de analizat (considerat de durată N) în blocuri de lungime m− dependentă de numărul de ordine al iteraţiei La a m-a iteraţie aceste blocuri au lungimea 2N Semnalul conţinut în fiecare dintre aceste blocuri este transformat folosind DCT Procedura de segmentare şi de calcul a DCT este ilustrată în figura 2 2 3 1 0c Iteraţia 1 1c2c Iteraţia 2 11c12c21c22c Figura 2 2 3 1 Procedura de calcul a TPC Rezultatul TPC constă din alegerea unui număr total de N coeficienţi, din unul sau mai multe blocuri de coeficienţi specifice uneia sau mai multor iteraţii Această alegere se face prin "căutarea celei mai bune baze" De exemplu un rezultat posibil pentru TPC, prezentată în figura 2 2 3 1 este secvenţa de coeficienţi {} 22211c,c,c Un alt rezultat posibil este secvenţa {}0c Analiza asimptotică a TPC se bazează pe faptul că atunci când N tinde la infinit DCT converge la transformarea Karhunen-Loeve, Dar dacă N tinde la infinit atunci numărul de eşantioane al fiecărei secvenţe de coeficienţi DCT corespunzătoare unui anumit segment şi unei anumite iteraţii tinde la infinit şi deci coeficenţii DCT ai secvenţei corespunzătoare converg la transformarea Karhunen-Loeve Deoarece fiecare secvenţă de coeficienţi din cadrul rezultatului aplicării TPC converge asimptotic la transformarea Karhunen-Loeve se poate afirma că TPC converge asimptotic la transformarea Karhunen-Loeve Efectul de albire al TPC este ilustrat în figura 2 2 3 2 În partea de sus a acestei figuri este prezentată densitatea spectrală de putere a unui zgomot colorat, obţinut prin filtrarea cu un mediator numeric alunecător a unui zgomot alb În partea de jos a figurii este prezentată densitatea spectrală de putere a semnalului obţinut în urma calculului TPC a semnalului cu densitatea spectrală de putere din partea de sus a figurii Se constată că anvelopa densităţii spectrale de putere din partea de jos a figurii aproximează bine o constantă De aceea se poate afirma că semnalul a cărui densitate spectrală de putere este reprezentată în partea de jos a figurii este o bună aproximare pentru un zgomot alb În consecinţă a fost pusă în evidenţă proprietatea de albire a TPC Făcând o analiză comparativă a figurilor 2 2 1 1 , 2 2 2 3 şi 2 2 3 2 se constată că, din punct de vedere al vitezei de convergenţă a transformării "wavelet" spre un zgomot alb, cel mai bine se comportă TPC, urmată de TUD Cea mai lentă convergenţă o are TPWD 52 2 2 2 Analiza statistică a TPWD Figura 2 2 3 2 Efectul de albire al TPC Deci oricare dintre cele trei transformări bazate pe teoria funcţiilor "wavelet", TUD, TPWD sau TPC, poate fi utilizată drept transformare ortogonală, într-o schemă de compresie de date, deoarece oricare dintre acestea converge asimptotic la transformarea Karhunen-Loeve Ţinând seama de criteriul vitezei de convergenţă, cea mai potrivită pare a fi TPC Această transformare are şi avantajul localizării temporale a filtrelor de analiză, în intervalele Im În plus ea este şi cea mai adecvată pentru prelucrarea semnalelor de vorbire, ţinând seama de modelul sinusoidal al acestora Această afirmaţie se justifică în continuare 2 3 Alegerea celei mai bune funcţii de tipul "wavelets mother" Unul dintre parametrii unei transformări "wavelet" ortogonală discretă este funcţia "wavelets mother" folosită Celălalt parametru este numărul de iteraţii După cum s-a văzut în cazul TUD şi TPWD acest număr este bine să fie cât mai mare posibil (pentru a se atinge regimul asimptotic) În cazul TPC numărul de iteraţii poate fi ales şi pe baza altor considerente În cazul aplicaţiilor de compresie alegerea funcţiei "wavelets mother" trebuie făcută în funcţie de natura semnalului de prelucrat, în aşa fel încât să se maximizeze factorul de compresie la un nivel de distorsiuni de reconstrucţie impus Maximizarea factorului de compresie se realizează prin minimizarea numărului de coeficienţi de valoare superioară unui anumit prag Valoarea pragului depinde de nivelul de distorsiuni acceptat la reconstrucţie Cu cât numărul de coeficienţi superiori pragului este mai mic cu atât numărul de biţi necesar pentru descrierea variantei compresate a semnalului este mai mic şi deci factorul de compresie obţinut este mai mare Pentru alegeri diferite ale funcţiei "wavelets mother" se obţin numere diferite de coeficienţi superiori pragului Această afirmaţie poate fi ilustrată folosind metoda de compresie descrisă în paragraful 2 2 1 În figura 2 3 1 se prezintă semnalul care urmează să fie compresat În figura 2 3 2 se prezintă rezultatul compresiei urmată de reconstrucţia semnalului din figura 2 3 1 atunci când pentru calculul TUD s-a utilizat funcţia "wavelets mother" de tip Dau 4 (a se vedea ) În figura 2 3 3 se prezintă rezultatul reconstrucţiei în urma compresiei pentru cazul utilizării funcţiei "wavelets mother" de tip Dau 20 Comparând figurile 2 3 2 şi 2 3 3 se constată că deşi în ambele experimente puterea distorsiunii nu depăşeşte 1% din puterea semnalului din figura 2 3 1 totuşi experimentul descris în figura 2 3 2 este superior din punct de vedere al compresiei, deoarece în cazul său au fost utilizaţi doar 7 coeficienţi ai transformării "wavelet" în timp ce în cazul experimentului ilustrat în figura 2 3 3 au fost utilizaţi 26 de coeficienţi ai TUD În consecinţă ar fi necesară o procedură de selecţie a funcţiei "wavelets mother" în acord cu forma semnalului de prelucrat în scopul maximizării factorului de compresie în cazul în care se utilizează TUD La aceeaşi concluzie se ajunge şi atunci când se utilizează TPWD 2 3 Alegerea celei mai bune funcţii de tipul "wavelets mother" 53 Figura 2 3 1 Semnalul de prelucrat Figura 2 3 2 Rezultatul operaţiilor de compresie şi reconstrucţie când pentru calculul TUD s-a utilizat funcţia "wavelets mother" Dau 4 Figura 2 3 3 Rezultatul operaţiilor de compresie şi reconstrucţie când pentru calculul TUD s-a utilizat funcţia "wavelets mother" Dau 20 54 2 3 Alegerea celei mai bune funcţii de tipul "wavelets mother" O astfel de procedură de selecţie este descrisă în Ea se bazează pe segmentarea semnalului de prelucrat Acesta este aproximat polinomial, pe segmente, prin dezoltare în serie Taylor Gradul fiecărui polinom este fixat în aşa fel încât eroarea de aproximare pe segmentul corespunzător să nu depăşească o valoare impusă Pentru prelucrarea fiecărui segment se alege o funcţie "wavelets mother" cu un număr de momente nule egal cu gradul polinomului de aproximare de pe segmentul respectiv Primul segment considerat are o lungime egală cu durata semnalului Dacă nu există nici un polinom aproximant pentru acest segment (adică dacă întreg semnalul nu poate fi aproximat suficient de bine cu un polinom de grad mai mic sau egal cu numărul maxim de momente nule al unei funcţii de tip "wavelets mother" disponibilă) atunci segmentul se înjumătăţeşte şi se încearcă aproximarea polinomială pe fiecare jumătate Această procedură se repetă până când se realizază segmentarea întregului semnal În funcţie de gradele polinoamelor aproximante se aleg, pentru fiecare segment, funcţiile "wavelets mother" folosite pentru calculul TUD pe acel segment În acest fel pe fiecare segment se foloseşte o altă bancă de filtre pentru calculul TUD S-a obţinut deci o bancă de filtre variabilă în timp, care se adaptează la semnalul de prelucrat, făcând o anumită localizare temporală a parametrilor acestuia În acest mod poate fi ameliorată şi deficienţa cronică a transformării cu pachete de funcţii "wavelet" În cazul TPC nu există diferenţe majore între diferitele funcţii "wavelets mother" care pot fi utilizate Singurele diferenţe provin din deosebirile dintre diferitele ferestre )(twcare pot fi utilizate În continuare se prezintă o modalitate de selecţie a celei mai bune funcţii "wavelets mother" pentru cazul compresiei semnalului de vorbire Fiecare propoziţie rostită este o secvenţă de tonuri care au diferite intensităţi, frecvenţe şi durate Fiecare ton este un semnal sinusoidal cu amplitudine, fecven ţă şi durată specifice Acesta este modelul sinusoidal al vorbirii O descriere matematică pentru acest model este: () tQ () () θ= ∑ qqtcosAtx (2 3 1) = 1q , unde componentele sunt numite parţiale Fiecare termen al acestei sume este un semnal cu dublă modulaţie Deci nu este vorba despre semnale staţionare Dar vorbirea este privită frecvent ca şi o succesiune de semnale staţionare Împărţind semnalul de vorbire într-o succesiune de segmente, fiecare având o durată mai mică de 25 ms, se obţine o secvenţă de semnale staţionare Pe fiecare segment modelul vorbirii poate fi de forma: Q () ω= ∑ qqstcosAtx (2 3 2) = 1q tx într-un pachet de Această descompunere seamănă mult cu descompunerea semnalului () s cosinusuri 2 3 Alegerea celei mai bune funcţii de tipul "wavelets mother" 55 Descompunerea aceluiaşi semnal, folosind o bază de funcţii "wavelet" este de forma: KL tt,txtxψ () () ()()ψ= (2 3 3) l,kl,kss∑∑ 1k1l== tψtψ unde () Factorul de compresie l,k sunt undişoarele generate de funcţia "wavelets mother" () obţinut folosind o funcţie "wavelets mother" specificată este mai mare dacă numărul de coeficienţi: () ()ψ= t,txd (2 3 4) l,ksl,k nenuli, al acestei descompuneri, N, este mai mic Dar: ψ ∞ * () () ( ) 0rdtttxd= ⋅= (2 3 5) ∫ l,ksl,kψ l,ks,xψ ∞− tx şi ()tψ unde membrul drept reprezintă valoarea intercorelaţiei semnalelor () sl,k calculată în origine Aceasta este valoarea maximă a acestei funcţii Intercorelaţia măsoară gradul de asemănare al tψ celor două semnale Deci mărimea coeficientului d este mai mare dacă semnalele () l,ktxs şi ()l,k sunt mai asemănătoare Folosind relaţia (2 3 2) se poate afirma că funcţiile "wavelets" cele mai tx sunt elementele unui pachet de cosinusuri Dar dacă mulţimea asemănătoare cu semnalul () s {} ()() tψtx se poate calcula cu este o bază ortonormată atunci energia semnalului s ∈ Zl,Zkl,k∈ formula: KL2 = ∑∑ l,kxdE (2 3 6) == 1k1l tx este o constantă independentă de funcţia "wavelets mother" Deoarece energia semnalului () s selecţionată, se poate afirma că numărul N este mai mic dacă mărimea coeficienţilor d nenuli ψ l,k este mai mare Iată de ce pentru compresia semnalului de vorbire cea mai bună transformare "wavelet" ortogonală este TPC Bineînţeles această afirmaţie este valabilă în măsura în care modelul sinusoidal al vorbirii este respectat În continuare se analizează modalităţile de optimizare a compresiei vorbirii bazată pe TPC prin alegerea celei mai bune funcţionale de cost folosită în algoritmul de alegere al celei mai bune baze TPC este o transformare adaptivă Rezultatul utilizării sale într-o anumită aplicaţie poate fi optimizat folosind procedura de căutare a celei mai bune baze Aceasta este o procedură foarte eficientă, care poate creşte mult calitatea unei anumite metode de prelucrare a semnalelor Aşa după cum s-a arătat deja există mai multe funcţionale de cost a căror minimizare poate conduce la găsirea celei mai bune baze Cea mai utilizată dintre acestea este entropia coeficienţilor d Dar minimizarea acestei funcţionale nu conduce la maximizarea l,k factorului de compresie Funcţionala de cost, a cărei minimizare conduce la maximizarea factorului de compresie este cea care conduce la minimizarea numărului de coeficienţi, N, s superiori unei anumite valori de prag, t, (care fixează puterea distorsiunii care apare la reconstrucţie) Într-adevăr, folosind această funcţională de cost, pentru alegerea celei mai bune baze (cel mai bun pachet56 2 3 Alegerea celei mai bune funcţii de tipul "wavelets mother" de cosinusuri) se obţine un anumit număr, N, de coeficienţi ai TPC nenuli (dintre care un număr de ψ sN sunt superiori pragului t) La ieşirea detectorului de prag, DP, din schema bloc de compresie, figura 2 1 1, se obţin Ncoeficienţi nenuli Dar acesta este un număr minim, deoarece a fost s minimizat prin procedura de alegere a celei mai bune baze Iată de ce utilizarea acestei funcţionale de cost conduce la maximizarea factorului de compresie Mărind valoarea pragului t, numărul Ndevine mai mic şi valoarea factorului de compresie s devine mai mare Din nefericire valoarea raportului semnal pe zgomot la ieşirea sitemului de reconstrucţie (a semnalului compresat), rsz scade cu creşterea lui t Deci creştrea pragului t trebuie 0 controlată pentru a păstra "transparenţa" (capacitatea de a păstra imperceptibilă simţurilor umane) compresiei Acesta este motivul pentru care detectorul de prag DP, trebuie să fie un sistem adaptiv Un alt parametru al TPC care poate fi considerat pentru optimizarea compresiei este numărul de iteraţii Deci transformarea "wavelet" recomandată pentru compresia vorbirii este TPC (în măsura în care modelul sinusoidal al vorbirii este valabil) Alegerea unui anumit număr de iteraţii al acesteia poate fi utilizată pentru maximizarea factorului de compresie Capitolul 3 Detectorul de prag Unul dintre cele mai importante blocuri din structura sistemului de compresie din figura 2 1 1 este detectorul de prag Rolul acestui sistem este de a elimina toţi coeficienţii din domeniul transformării "wavelet" discretă mai mici decât o anumită valoare Acesta este de fapt mecanismul prin care se realizează compresia Şi acest bloc are în schema propusă o structură adaptivă 3 1 Detecţia adaptivă de prag Analizând sistemul din figura 2 1 1 se poate constata că distorsiunea datorată compresiei are valoarea medie pătratică:  2  [] []() nxˆnxED (3 1 1) −=    Pentru că TPC şi inversa sa TPCI sunt transformări ortogonale ultima relaţie devine:  2  () [] [] nunyED (3 1 2) −=    Valoarea pragului, t, trebuie aleasă astfel încât să fie satisfăcută condiţia: 1ED  [] nz (3 1 14) =  [] tny,0 ≤   În continuare se prezintă o analiză statistică pentru acest sistem 3 2 Analiza statistică a detectorului de prag Fie X variabila aleatoare de la intrarea în detectorul de prag şi Y variabila aleatoare obţinută la ieşire Se va considera că X este o variabilă aleatoare Gaussiană de medie nulă Se studiază robusteţea acestui sistem În acest scop se calculează dispersia variabilei aleatoare de la ieşire Dacă aceasta este mai mică decât dispersia variabilei aleatoare de la intrare atunci se poate declara că sistemul este robust, În consecinţă întreg sistemul de compresie din figura 2 1 1 ar fi robust Relaţia intrare- ieşire din relaţia (3 1 14) are reprezentarea grafică din figura 3 2 1 y t x -t t 0 -t Figura 3 2 1 Relaţia intrare-ieşire pentru detectorul de prag 60 3 2 Analiza statistică a detectorului de prag Relaţia de legătură dintre funcţiile de repartiţie a variabilelor aleatoare X şi Y este: () ,yF )t,-(-y ∞∈  X(3 1 15)  () ,tF ,0)t[-y ∈−  X () = yF  Y () ,tF )t[0,y ∈ X   () ∞∈ ,yF ),t[y X  Derivând această funcţie se obţine legătura dintre densităţile de probabilitate ale semnalelor de intrare şi ieşire, prezentată în figura 3 2 2 Pentru media variabilei aleatoare Y se obţine: 0m= Y(3 1 16) Calculând dispersia lui Y se obţine: t 222(3 1 17) () −σ=σ ∫ XXYdyypy2 0 2 undeσ reprezintă dispersia lui X În consecinţă: X 22 ≤σ (3 1 18) XYσ Şi deci detectorul de prag este un sistem robust De aceea şi metoda de compresie propusă în această teză este robustă Acesta este unul dintre avantajele compresiei bazată pe funcţii "wavelet" în comparaţie cu alte metode de compresie yp () Y yp () X ytFtFδ () ( )()()−− XX ty-t0 Figura 3 2 2 Densitatea de probabilitate a variabilei aleatoare Y Capitolul 4 Sistemul de cuantizare Un alt bloc foarte important din structura unui sistem de compresie este sistemul de cunatizare Despre operaţia de cuantizare s-a scris foarte mult În s-a făcut o trecere în revistă a principalelor tehnici de cuantizare cunoscute, folosindu-se intensiv lucrările … Un rezultat remarcabil, obţinut în , îl constituie generalizarea teoremei de cuantizare a lui Widrow Acest rezultat a fost publicat de către autorul acestei teze în Sistemul de cuantizare trebuie proiectat în acord cu aplicaţia pe care o deserveşte Pentru compresia vorbirii este important ca structura sistemului de cuantizare să ţină seama de particularităţile acestui tip de semnal Acestea sunt evidenţiate de modelul psiho-acustic al vorbirii În continuare se face o prezentare succintă a acestui model 4 1 Proprietăţile psiho-acustice ale semnalului de vorbire Cea mai importantă proprietate psiho-acustică a semnalului de vorbire, din punct de vedere al compresiei, este dată de fenomenul de mascare 4 1 1 Fenomenul de mascare Există două tipuri de mascare ale unui sunet de către un altul Se vorbeşte despre mascarea frecvenţială dacă cele două sunete apar simultan şi de mascarea temporală dacă cele două sunete apar succesiv În continuare se vor face referiri doar la mascarea frecvenţială deoarece e dificil să se ţină seama în structura unui sistem de compresie de mascarea temporală Fie o sinusoidă de frecvenţă f şi de amplitudine A Urechea nu va sesiza semnalul sonor 11 descris de această sinusoidă, într-o ambianţă de linişte perfectă, decât dacă puterea acestei sinusoide fS Aria de audiţie, este aria unei suprafeţe care se este mai mare decât pragul de audiţie absolut, () a întinde deasupra pragului de audiţie între 20 Hz şi 20 kHz respectiv între 0 şi 90 dB În continuare se consideră cazul în care s-ar fi emis 2 sinusoide, prima, cea care maschează având frecvenţa f şi puterea P iar cea de a doua, cea care este mascată, având frecvenţa f şi 112 puterea P Se măsoară pentru toate valorile posibile ale frecvenţei fdin banda audio, puterea P 222 pentru care cea de a doua sinusoidă este la limita audibilităţii Funcţia () se numeşte curbă de 22fP mascare Curbele de mascare ale unei sinusoide de către o altă sinusoidă nu sunt singurele curbe psiho-acustice interesante În cadrul operaţiei de cuantizare se va accepta un zgomot de cuantizare într-o anumită bandă de frecvenţă dacă acesta nu este audibil E deci interesant să se examineze cazul în care semnalul mascat este un zgomot de bandă îngustă Mai mult, deoarece un semnal de vorbire poate fi considerat ca fiind compus dint-un anumit număr de semnale pure (componente tonale mai numite şi parţiale), care pot fi modelate prin sinusoide şi dintr-un anumit număr de semnale care nu sunt pure (componente netonale), care pot fi modelate prin zgomote de bandă îngustă, este necesar să se analizeze următoarele patru cazuri: mascarea unei sinusoide de către o sinusoidă, mascarea unei sinusoide de către un zgomot de bandă îngustă, mascarea unui zgomot de bandă îngustă de către o sinusoidă şi mascarea unui zgomot de bandă îngustă de către un zgomot de bandă îngustă Un zgomot de bandă îngustă este caracterizat de trei parametri: frecvenţa centrală, lărgimea de bandă şi puterea Toate aceste curbe au aceeaşi alură, o formă triunghiulară Ele depind de parametrii f şi P Toate curbele de mascare au maximul la frecvenţa f Puterea P la frecvenţa f 11121 62 4 1 1 Fenomenul de mascare = este puţin mai mică decât puterea P Diferenţa () se numeşte indice de mascare 11122PffP− Pantele curbelor de mascare sunt mai mari spre frecvenţe joase decât spre frecvenţe înalte Aceste pante depind de frecvenţa f a semnalului mascant Ele sunt mai mici când această frecvenţă este mai 1 mare Dacă frecvenţa se măsoară folosind o nouă unitate de măsurare, numită Bark şi dacă puterile se măsoară în dB se poate demonstra că aceste curbe de mascare pot fi modelate cu segmente de dreaptă (într-o anumită bandă de frecvenţă în jurul lui f) şi că pantele acestor drepte nu mai depind 1 de f Relaţia între o frecvenţă exprimată în Hz, în intervalul şi o frecvenţă exprimată în 1 Barks, în intervalul este: 2     HertzHertzff  ⋅⋅= ⋅+    Barkarctg5,376,0arctg13f (4 1) 75001000      Curbele de mascare rămân dependente de P Panta spre frecvenţele înalte este cu atât mai mică cu cât 1 1P este mai mare Funcţia de mascare definită de modelul psiho-acustic numărul 1 al standardului MPEG Audio ţine seama de influenţa puterii P a semnalului mascant Funcţiile de mascare sunt 1 definite de relaţiile următoare: ()( ) 1ff3,6P4,01ff17 − [ ] 1kPkP+ (4 10) [] xx≥ [] [ ] dB7jkPkP≥ − xx+ cu j din mulţimile: {} 63k2pentru2,2j (4 17) mS Dacă în locul cuantizării entropice se realizează o cuantizare uniformă atunci: ()⋅ Sh2 sP2= , şi relaţia (4 17) devine: 1 b2 RSM2⋅ > (4 18) 12 Ultima relaţie (la fel ca şi relaţia (4 17)) permite alegerea numărului de biţi b pentru care cuantizarea semnalului de vorbire în banda critică considerată să fie transparentă 4 2 Cuantizarea adaptivă în domeniul TPC În paragraful destinat studiului detectorului de prag s-a considerat pentru demonstrarea propoziţiei care reprezintă rezultatul central al acelui paragraf că se utilizează o cuantizare uniformă Aşa cum s-a arătat în , se pot obţine rezultate mai bune dacă se foloseşte o cuantizare neuniformă Aceasta se poate baza pe utilizarea modelului psiho-acustic, aşa cum s-a arătat în paragraful anterior Deficienţa principală a unei astfel de metode este faptul că ea necesită un volum de calcul important, determinarea pragului de mascare fiind o operaţie laborioasă În continuare se prezintă o soluţie foarte simplă pentru realizarea unei cuantizări neuniforme Secvenţa obţinută la ieşirea blocului TO din ny, reprezintă, datorită faptului că s-a ales ca şi transformare ortogonală figura 2 1 1 , semnalul [] TPC, spectrul de amplitudini instantaneu al blocului curent din semnalul de vorbire De aceea poate fi realizată o cuantizare perceptivă, bazată pe o aproximare a modelului psiho-acustic al semnalului de nz , obţinut la ieşirea blocului DP, din figura 2 1 1 este împărţit în 32 vorbire Suportul semnalului [] de intervale, pe care sunt definite blocurile de semnal[] 32,1k,nz= k, de aceaşi lungime Acestea corespund benzilor critice din modelul psiho-acustic al vorbirii Din fiecare dintre aceste benzi, blocul DP a eliminat toate componentele spectrale, cu modulul mai mic decât un anumit prag, t 4 2 Cuantizarea adaptivă în domeniul TPC 67 Această valoare aproximează valoarea pragului de mascare După cum s-a arătat în paragraful dedicat detectorului de prag, valoarea t este aleasă în mod adaptiv, folosind un algoritm de maximizare a raportului semnal pe zgomot pentru semnalul reconstruit Se realizează cuantizarea uniformă a nz şi []nz, z şiz fiecărui bloc În acest scop se detectează valorile maxime ale semnalelor [] kMkM Pentru fiecare bloc este alocat un anumit număr de biţi Această procedură este bazată pe valorile 6 kMz Pentru valoarea Mz sunt alocaţi 6 biţi (2 nivele de cuantizare) Pentru valorile kMz se alocă:   6kMz ⋅=γ  k2 (4 19)  Mz   [] nivele de cuantizare, unde [] simbolizează funcţia parte întreagă Astfel un număr de [][] 1logb+ ()γ= k2k biţi sunt alocaţi pentru fiecare eşantion al blocului cu indicele k Cuantizarea acestui bloc este relizată folosind transformarea:   [] knz [] γ⋅=  kknu (4 20)  +  kM01 0z  În acest mod se realizează o normalizare de nivel în fiecare bloc Denormalizarea corespunzătoare va trebui să fie realizată în faza de reconstrucţie înainte de calculul TPCI Această operaţie va fi realizată de blocul notat cu D în figura 2 1 1 Marele avantaj al procedurii de cuantizare propusă este datorat proprietăţii de decorelare a TPC Datorită acestei proprietăţi numeroase valori z sunt nule Şi kM valorile corespunzătoare γ kşi kb sunt nule De aceea numărul total de biţi alocat eşantioanelor nu, N, este foarte mic în comparaţie cu numărul de biţi pe care a fost reprezentat semnalului [] b nx Această procedură de cuantizare are şi un mic dezavantaj Pentru transmiterea sau semnalul [] nu, []nu, trebuie adăugate la "coordonatele" fiecărui memorarea fiecărui bloc al semnalului [] k eşantion câteva valori suplimentare, valorile z Folosind aceste valori şi relaţia (3 46) numerele γ kMk pot fi calculate în faza de reconstrucţie Cu ajutorul parametrilor z şi γ pot fi realizate "operaţiile kMk inverse" operaţiilor descrise de relaţia (4 2) Deoarece numărul de biţi cerut pentru reprezentarea valorilor z este foarte mic în comparaţie cu N factorul de compresie global nu este afectat de kMb nu Valoarea factorului de necesitatea adăugării valorilor suplimentare pentru fiecare bloc [] k compresie realizat de sistemul din figura 2 1 1 poate fi calculată folosind relaţia: N16⋅ f= c (4 3) BNN+ pc+ unde s-a presupus că fiecare eşantion al semnalului de intrare este codat pe 16 biţi, N reprezintă p nu şi B reprezintă numărul de biţi necesar pentru codarea poziţiilor eşantioanelor semnalului [] numărul de biţi cerut pentru codarea parametrilor Numerele Nşi Bpot fi calculate folosind relaţiile: c 68 4 2 Cuantizarea adaptivă în domeniul TPC 32 ()⋅= ∑ kcbkNN (4 4) = 1k kN reprezintă numărul de eşantioane nenule ale blocului cu indicele k şi: unde () 32 = ∑ kbB (4 5) = 1k Numărul N se calculează cu relaţia: p 32 ()ζ⋅= ∑ kpkNN (4 6) = 1k unde ζ reprezintă numărul de biţi necesar pentru reprezentarea poziţiei fiecărui eşantion de valoare k nenulă din blocul cu indicele k Deoarece în fiecare bloc există un număr maxim de 32 de astfel de poziţii valorile ζ ksunt mai mici decât 5 De aceea o margine superioară pentru pN este: 32 () (4 7) =⋅ ∑ nN32kN5⋅ 1k= 4 3 Celelalte blocuri ale sistemului de compresie Utilizarea codorului Co din figura 2 1 1 conduce la creşterea factorului de compresie fără a afecta nivelul distorsiunii de reconstrucţie, deoarece acest sistem realizează o compresie fără pierderi Implementarea acestui bloc face apel la una dintre tehnicile clasice de codare ca de exemplu codarea Huffman sau codarea aritmetică, , Utilizarea unor astfel de blocuri pentru compresia semnalelor audio este experimentată în Rezultate experimentale precum şi concluzii referitoare la utilizarea unor astfel de blocuri în scheme de compresie sunt prezentate în aceeaşi lucrare nv de la ieşirea codorului reprezintă rezultatul procedurii de compresie Este Semnalul [] semnalul care se memorează sau se transmite Celelalte două blocuri din cadrul sistemului din figura nv La 2 1 1 sunt utilizate în faza de reconstrucţie Blocul D realizează decodarea semnalului [] nu şi secvenţa z, 32,1= ieşirea sa se obţin semnalele [] kkMk Folosind relaţia (3 46) se calculează valorile γ k Apoi se realizează denormalizarea: [] knu [] = (4 8) kMkznw⋅ γ k01 0+ nw se obţine semnalul []nw Ultimul bloc din figura 2 1 1 Prin concatenarea coponentelor [] k nxˆ Acesta reprezintă rezultatul procedurii de calculează TPCI Rezultatul este semnalul [] reconstrucţie Folosind acest semnal poate fi calculată distorsiunea D Toate operaţiile descrise deja sunt repetate, pentru diferite valori ale pragului, t, în scopul maximizării valorii factorului de compresie globalf, cu constrângerea ca rsz să fie mai mare decât β c0 Capitolul 5 Simulãri ale metodei de compresie În acest capitol se vor prezenta câteva experimente în care se implementează sistemul de compresie a vorbirii, propus în capitolul 2, în diferite variante Complexitatea sistemului creşte de la experiment la experiment Pentru toate experimentele este comprimat acelaşi semnal de vorbire, o propoziţie în limba engleză; "Huston we have a problem" Fişierul sursă este în format "wave" La crearea sa a fost folosită o frecvenţă de eşantionare de aproximativ 44 KHz, fiecare eşantion fiind codat pe 16 biţi Graficul acestui semnal este prezentat în figura 5 1 Figura 5 1 Forma de undă a semnalului de prelucrat Semnalul este împărţit în blocuri de câte 1024 de eşantioane (durata fiecărui bloc astfel obţinut fiind inferioară valorii de 25 ms) Aceste simulări au fost efectuate în Matlab folosind "toolbox"-ul Wavelab Acesta este prezentat în Pentru fiecare experiment se prezintă programul folosit, rezultatele obţinute şi se fac comentarii 5 1 Primul experiment Acesta este cel mai simplu experiment Sistemul de compresie a vorbirii nu este adaptiv Se utilizează TCP cu o singură iteraţie (identică cu DCT) Se utilizează o valoare de prag pentru blocul DP egală cu t Se efectuează o cuantizare uniformă pe 6 biţi Nu se utilizează blocurile Co şi D m Efectul utilizării acestora este doar estimat În continuare se prezintă programul care implementează primul experiment 70 5 1 Primul experiment Programul 1 Şirul de instrucţiuni Comentariu [s,fs,wmode,fidx]=readwav('problem wav','y',-1,-Achiziţia semnalului de vorbire 1); x=s(1025:2048); Segmentarea semnalului de vorbire (Primul segment) i=x *x; Pi=sum(i); Calculul puterii semnalului de intrare [n,D]=dyadlength(x);Analiza cu pachete cosinusoidale cp=cpanalysis(x,0,'Sine');Deoarece se utilizează o singură iteraţie TPC este identică cu DCT t=0 1 *sqrt(Pi /1024); Iniţializarea pragului eps=t; stree=calcstattree(cp,'N(eps)',eps);Alegerea celei mai bune baze [btree,vtree]=bestbasis(stree,0); Coef=fpt cp(btree,x,0,'Sine'); Calculul transformării cu pachete cosinusoidale y=hardthresh(coef,t); Compararea cu pragul Cuantizarea scalară uniformă a coeficienţilor Ampl=max(abs(y));rămaşi N=nnz(y);Determinarea coeficientului de valoare maximă b=round(y /ampl *64);Determinarea numărului de coeficienţi nenuli Cuantizarea propriuzisă Nc=N *16; Determinarea nr de biţi folosiţi pentru cuantizare Se folosesc 6 biţi pentru codarea valorii eşantionului curent şi 10 pentru codarea poziţiei sale yf=ampl *b /64; z=ipt cp(btree,yf,0,'Sine'); Calculul transformării inverse e=-x+z'; o=e *e; Po=sum(o);Calculul raportului semnal pe zgomot la ieşire rsb=10 *log10((Pi)/(Po)); fc=(1024 *16) /(Nc); Calculul factorului de compresie pe segment Figure(1);Reprezentări grafice Subplot(121); plot(x); title('s de intr');Semnalul de intrare Subplot(122); plot(z); title('s rec');Semnalul reconstruit Figure(2); plot(abs(y)); title('spectru');Analiza spectrala a segmentului Figure(3); a=1/512:1/512:1; v=fc *a /a;Factorul de compresie şi raportul semnal pe w=rsb *a /a;zgomot Subplot(121); plot(a,v); title('fc'); subplot(122); plot(w); title('RSZ0'); save rez z -ascii Salvarea segmentului reconstruit În urma rulării acestui program pentru cel de al doilea segment s-au obţinut rezultatele prezentate în figurile următoare Figura 5 1 1 Semnalele de intrare şiFigura 5 1 2 Spectrul semnalului Figura 5 1 3 38,3f=, c reconstruit reconstruit dB24rsb= 5 1 Primul experiment 71 Rulând pentru fiecare segment al semnalului de prelucrat acest program se obţin rezultatele prezentate în tabelul următor Nr defrszObservaţii [dB] c0 ordine 11,9248 23,531zgomot preponderent (figura 5 1 4) 2 3,38 24 sinus preponderent 3 2,9854 23,8294 sinus preponderent 41,4692 27,1865 Preponderent zgomot 51,358125,7967 Preponderent zgomot 6 2,0317 22,1999 sinus preponderent 7 2,5793 23,3007 sinus preponderent 8 2,6056 22,7519 sinus preponderent 9 3,3907 25,3689 sinus preponderent 10 2,4323 23 9739 sinus preponderent 11 1,9284 22,9190 sinus preponderent 121,9140 25,1832 Preponderent zgomot 13 2,5600 25,7500 sinus preponderent 14 2,7234 25,5362 Preponderent zgomot 15 3,9690 26,0653 sinus preponderent (figura 5 1 5) 161,7124 25,1859 Preponderent zgomot 171,2800 24 0950 Preponderent zgomot (figura 5 1 6) 18 3,4020 27,5556 sinus preponderent 19 2,6528 27,1692 sinus preponderent 20 2,5793 27,3962 Preponderent zgomot Tabelul 5 1 1 Rezultatele experimentului 1 Pe ultima coloană a tabelului sunt prezentate observaţii legate de calitatea segmentului prelucrat Dacă forma sa de undă este "curată" şi dacă indicele ultimei componente spectrale semnificative este inferior lui 512 atunci segmentul se consideră sinusoidal În caz contrar segmentul se consideră zgomotos Un exemplu de segment preponderent sinusoidal este segmentul 2 descris de figurile 5 1 1 şi 5 1 2 Un exemplu de segment preponderent zgomotos este cel al segmentului 1 Spectrul semnalului obţinut după detecţia de prag, pentru segmentul 1, este prezentat în figura 5 1 4 Se observă că acesta conţine o componentă de zgomot alb Figura 5 1 4 Spectrul unui segment considerat preponderent zgomotos 72 5 1 Primul experiment Acest zgomot ar putea fi înlăturat dacă s-ar utiliza o valoare superioară pentru prag, t De aceea se poate afirma că procedura de alegere adaptivă a pragului este utilă pentru compresie Conform tabelului 5 1 1 , segmentul cu cel mai mare factor de compresie este segmentul 15 iar cel cu cel mai mic factor de compresie este segmentul 17 În figura 5 1 5 este prezentat segmentul 15 iar în figura 5 1 6 segmentul 17 Figura 5 1 5 Formele de undă de la intrarea şi ieşirea sistemului de compresie (sus) pentru segmentul 15 şi spectrul semnalului reconstruit (jos) 5 1 Primul experiment 73 Se constată că segmentul cu cel mai mare factor de compresie este unul preponderent sinusoidal Există foarte puţini coeficienţi nenuli cu indice superior lui 400 În consecinţă se poate afirma că metoda de compresie funcţionează mai bine dacă se respectă modelul sinusoidal al vorbirii Şi pe baza figurii 5 15 se constată că valoarea pragului, t, ar putea fi crescută Figura 5 1 6 Formele de undă de la intrarea şi ieşirea sistemului de compresie (sus) pentru segmentul 17 şi spectrul semnalului reconstruit (jos) Conform figurii 5 1 6 se constată că în cazul segmentului 17 modelul sinusoidal al vorbirii este respectat în mai mică măsură, motiv pentru care acest segment a fost considerat preponderent zgomotos Analizând tabelul 5 1 1 se constată că valorile obţinute pentru factorul de compresie sunt mici, fiind cuprinse între 1,28 (segmentul 17) şi 3,97 (segmentul 15) În schimb valorile raportului semnal pe zgomot la ieşire sunt mari, fiind cuprinse între 22,75 (segmentul 8, preponderent sinusoidal) şi 27,55 (segmentul 18, preponderent zgomotos), deşi s-a realizat o cuantizare pe un număr de doar 6 biţi Se constată că există rezerve pentru reducerea raportului semnal pe zgomot la ieşire (prin 74 5 1 Primul experiment creşterea valorii de prag, t) în special la segmentele preponderent zgomotoase Însă principalul motiv pentru valoarea mică a factorilor de compresie înregistraţi este faptul că în calculul acestor factori s-a considerat că poziţiile eşantioanelor semnalului comprimat sunt codate pe 10 10 biţi (10242=) Această problemă poate fi rezolvată dacă se apelează la metoda de cuantizare adaptivă (bazată pe utilizarea benzilor critice) prezentată în capitolul anterior 5 2 Al doilea experiment Scopul acestui experiment este de a evidenţia importanţa numărului de iteraţii al TPC asupra factorului de compresie În cazul experimentului anterior nu se făcea de fapt alegerea unei cele mai bune baze deoarece, nefăcându-se nici o iteraţie, TPC se reducea la DCT În acest experiment numărul total de iteraţii va fi de 10 (arborele TPC fiind impus de algoritmul de alegere a celei mai bune baze, care minimizează numărul de coeficienţi mai mari decât pragul t) Programul care stă la baza acestui experiment este următorul Programul 2 [s,fs,wmode,fidx]=readwav('problem wav','y',-1,-1); x=s(17409:18432); %calculul puterii semnalului de intrare; i=x *x; Pi=sum(i); % analiza cu pachete cosinusoidale; [n,D]=dyadlength(x); cp=cpanalysis(x,D,'Sine'); %iniţializarea pragului; t=0 1 *sqrt(Pi /1024); %alegerea celei mai bune baze; eps=t; stree=calcstattree(cp,'N(eps)',eps); [btree,vtree]=bestbasis(stree,D); %calculul transformării cu pachete cosinusoidale; coef=fpt cp(btree,x,D,'Sine'); % compararea cu pragul; y=hardthresh(coef,t); % cuantizarea scalară uniformă a coeficinţilor rămaşi; % determinarea coeficientului de valoare maximă; ampl=max(abs(y)); N=nnz(y); b=round(y /ampl *64); %determinarea numărului de biţi folosiţi pentru cuantizare; Nc=N *16; % calculul transformării inverse; yf=ampl *b /64; z=ipt cp(btree,yf,D,'Sine'); % calculul raportului semnal pe zgomot la ieşire; e=-x+z'; o=e *e; Po=sum(o); rsb=10 *log10((Pi)/(Po)); % calculul factorului de compresie pe segment; fc=(1024 *16) /(Nc); a=1/512:1/512:1;v=fc *a /a; w=rsb *a /a; % reprezentări grafice; figure(1); subplot(121); plot(x); title('s de intr'); subplot(122);plot(z); title('s rec'); figure (2); plotbasistree(btree,D,stree,'Sine'); title('arbore'); Au fost îngroşate caracterele instrucţiunilor care sunt diferite în programul 2 faţă de programul 1 În tabelul următor se prezintă rezultatele rulării acestui program pentru segmentele 1-10, 15 şi 17 În cazul segmentelor pentru care numărul de iteraţii rezultat în urma aplicării algoritmului de căutare a celei mai bune baze este 0 rezultatele efectuării experimentelor 1 şi 2 sunt identice Este vorba despre segmentele 2,3,7 şi 15 În cazul celorlalte segmente se obţin factori de compresie ceva mai mari (ceea ce dovedeşte superioritatea aplicării TPC asupra transformării DCT) şi rapoarte semnal pe zgomot la ieşire ceva mai mici Cel mai mic raport semnal pe zgomot de ieşire obţinut este mai mare de 23 dB Aceasta este încă o valoare prea mare În consecinţă se poate trage aceeaşi concluzie ca şi la experimentul 1 şi anume că valoarea pragului, t, poate fi crescută În figurile 4 2 1 şi 4 2 2 sunt prezentaţi arborii obţinuţi, în urma aplicării algoritmului de căutare a celei mai bune baze pe segmentele 4 şi 5 5 2 Al doilea experiment75 Nr defrsz [dB]Observaţii c0 ordine 11 9922 23 31 iteraţie 2 3 38 24 0 iteraţii 3 2 9854 23,8294 0 iteraţii 41 4819 26 348310 iteraţii (fig 5 2 1) 51 4124 26 091810 iteraţii (fig 5 2 2) 62 1695 26 118110 iteraţii 7 2,5793 23,3007 0 iteraţii 8 3 5189 23 21961 iteraţie 9 3,3907 25,3689 0 iteraţii 10 2 645 23 48421 iteraţie 15 3,9690 26,0653 0 iteraţii 171 4322 26 568810 iteraţii Tabelul 4 2 1 Câteva rezultate pentru experimentul 2 Figura 5 2 1 Arborele celei mai bune baze pentruFigura 5 2 2 Arborele celei mai bune baze pentru segmentul 4 segmentul 5 Evident pentru a fi posibilă aplicarea TPCI în scopul reconstrucţiei este necesară şi cunoaşterea acestor arbori De aceea pe lângă coeficienţii transformării (valoare şi poziţie) este necesară şi memorarea sau transmiterea acestui arbore în scopul reconstrucţiei De aici rezultă necesitatea codării arborelui celei mai bune baze Pentru această operaţie sunt necesari biţi suplimentari De numărul lor nu s-a ţinut seama în calculul factorilor de compresie prezentaţi în tabelul 5 2 1 De aceea factorii de compresie care se pot obţine, când se utilizează TPC sunt de fapt ceva mai mici O posibilitate de codare a arborelui celei mai bune baze este descrisă de următoarele reguli: - la fiecare iteraţie (nivel de divizare a suportului semnalului de prelucrat) se asociază un 1 dacă se face divizarea şi un 0 dacă nu se face divizarea; - fiecare nivel al arborelui este parcurs de la stânga la dreapta Un exemplu de aplicare a acestei metode de codare este prezentat în figura următoare: 765 2 Al doilea experiment 1 1 0 1 0 00 Figura 5 2 3 Un exemplu de codare al unui arbore de cea mai bună bază 4 S-a obţinut codul: 110010000000000 Acesta se exprimă pe 15 biţi (15=2-1) Deci numărul de biţi necesar pentru codarea, folosind metoda descrisă, a unui arbore care are 10 nivele de divizare, 11 este de 12− E clar că aceasta este o valoare inadmisibil de mare De aceea o soluţie mai bună pare a fi folosirea unui algoritm de căutare a celei mai bune baze care să utilizeze un număr mai mic de nivele de divizare Dacă se utilizează doar trei nivele de divizare, ca în exemplul din figura 5 2 3 , atunci pentru codarea arborelui celei mai bune baze sunt necesari doar 16 biţi Acest număr nu afectează valoarea factorului de compresie E clar că şi în acest caz utilizarea TPC conduce la factori de compresie mai mari decît utilizarea DCT În continuare se repetă experimentul 2 limitând numărul de divizări din algoritmul de căutare al celei mai bune baze la maximum 3 În acest mod se obţine experimentul 2 1 Programul aferent acestui experiment are două instrucţiuni diferite faţă de programul 2 Acestea sunt: [btree,vtree]=bestbasis(stree,3) şi fc=(1024 *16) /(Nc+16) Rezultatele obţinute în urma efectuării expeerimentului 2 1 sunt prezentate în tabelul următor Nr defrszObservaţii [dB] c0 ordine 11 9922 23 31 iteraţie 2 3 38 24 0 iteraţii 3 2 9854 23,8294 0 iteraţii 41 4713 26 42031 iteraţie 51 3763 26 25151 iteraţie 62 1070 21 50871 iteraţie 7 2,5793 23,3007 0 iteraţii 8 3 5189 23 21961 iteraţie 9 3,3907 25,3689 0 iteraţii 10 2 645 23 48421 iteraţie 15 3,9690 26,0653 0 iteraţii 171 2800 24 0950 0 iteraţii Tabelul 4 2 2 Câteva rezultate ale experimentului 2 1 În urma efectuării experimentului 2 1 s-au obţinut modificări, faţă de experimentul 2, pe segmentele 4, 5, 6 şi 17 Valorile obţinute pentru factorii de compresie corespunzători sunt puţin mai mici (dar încă mai mari decât cele din cazul experimentului 1) iar valorile rapoartelor semnal pe zgomot la ieşire puţin mai mari De aceea aceasta va fi modalitatea de aplicare a algoritmului de căutare a celei mai bune baze care se va folosi în continuare Blocul de date corespunzător fiecărui segment va trebui să aibă un antet, de 16 biţi, care va conţine codul arborelui celei mai bune baze specific acelui segment Deoarece valorile factorilor de compresie obţinuţi pe fiecare segment sunt încă prea mici, în continuare se descrie un nou experiment, în care cuantizarea scalară uniformă, pe 6 biţi, avută în vedere până acum, se înlocuieşte cu o cuantizare scalară neuniformă (descrisă în capitolul anterior) 5 2 Al doilea experiment 77 5 3 Al treilea experiment Secvenţa coeficienţilor TPC (calculată pe baza alegerii celei mai bune baze folosind ca şi funcţie de cost numărul de coeficienţi superiori valorii de prag, t) este prelucrată de detectorul de prag Semnalul obţinut la ieşirea acestuia, este cuantizat neuniform În acest scop el este împărţit în 32 de benzi şi în fiecare dintre acestea se realizează o normare şi o cuantizare uniformă pe 6 biţi Programul folosit pentru efectuarea acestui experiment este prezentat în continuare Programul 3 % achiziţia semnalui de prelucrat; [s,fs,wmode,fidx]=readwav('problem wav','y',-1,-1); % segmentarea; x=s(16385:17408); %calculul puterii semnalului de intrare; i=x *x; Pi=sum(i); % analiza cu pachete cosinusoidale; [n,D]=dyadlength(x); cp=cpanalysis(x,D,'Sine'); %iniţializarea pragului; t=0 1 *sqrt(Pi /1024); %alegerea celei mai bune baze; eps=t; stree=calcstattree(cp,'N(eps)',eps); [btree,vtree]=bestbasis(stree,3); %calculul transformării cu pachete cosinusoidale; coef=fpt cp(btree,x,D,'Sine'); % compararea cu pragul; y=hardthresh(coef,t); % împărţirea în 32 benzi;determinarea numărului de nivele de cuantizare în fiecare bandă b(k);determinarea nr de biţi în fiecare bandă nb(k); cuantizarea uniformă pe 6 biţi în fiecare bandă; determinarea numărului de coeficienţi nenuli în fiecare bandă N(k); % iniţializarea; yk=zeros(32,32); ykc=zeros(32,32); ykf=zeros(32,32); yf=zeros(1,1024); % împărţirea în 32 de benzi: for k=1:1:32; yk(k,:)=y(32 *(k-1)+1:32 *k); % normarea în fiecare bandă; % determinarea valorii maxime în fiecare bandă; z(k)=max(abs(yk(k,:))); % cuantizarea uniformă pe 6 biţi a valorii maxime din fiecare bandă; b(k)=round(z(k) /(ampl) *64); % determinarea numărului de biţi necesar pentru cuantizarea benzii k; nb(k)=round(log2(b(k)+1)); % cuantizarea uniformă pe 6 biţi în fiecare bandă; ykc(k,:)=round((yk(k,:) /(z(k)+0 01)) *b(k)); % determinarea numărului de coeficienţi nenuli din fiecare bandă; N(k)=nnz(ykc(k,:)); % denormarea în fiecare bandă; ykf(k,:)=(ykc(k,:) /(b(k)+0 01)) *z(k); % reasamblarea secvenţei de 1024 de eşantioane; yf=[ykf(1,:) ykf(2,:) ykf(3,:) ykf(4,:) ykf(5,:) ykf(6,:) ykf(7,:) ykf(8,:) ykf(9,:) ykf(10,:) ykf(11,:) ykf(12,:) ykf(13,:) ykf(14,:) ykf(15,:) ykf(16,:) ykf(17,:) ykf(18,:) ykf(19,:) ykf(20,:) ykf(21,:) 78 5 3 Al treilea experiment ykf(22,:) ykf(23,:) ykf(24,:) ykf(25,:) ykf(26,:) ykf(27,:) ykf(28,:) ykf(29,:) ykf(30,:) ykf(31,:) ykf(32,:)]; % determinarea numărului de biţi folosiţi pentru cuantizare; Nc=N*nb'; end; % determinarea numărului de biţi necesar ptr codarea valorilor maxime din fiecare bandă; B=sum(nb); % determinarea numărului de coeficienţi nenuli; Nn=sum(N); % calculul transformării inverse; z=ipt cp(btree,yf,D,'Sine'); % calculul raportului semnal pe zgomot la ieşire; e=-x+z'; o=e *e; Po=sum(o); rsb=10 *log10((Pi)/(Po)); % calculul factorului de compresie pe segment; numărul de biţi necesari pentru codarea poziţiilor este 5Nn deoarece pentru codarea a 32 de poziţii (câte există într-o bandă sunt necesari 5 biţi), 16 biţi se folosesc pentru codarea arborelui celei mai bune baze; fc=(1024 *16) /(Nc+Nn *5+B+16); % reprezentări grafice; figure(1); subplot(121); plot(x); title('s de intr'); subplot(122); plot(z); title('s rec'); figure (2); plotbasistree(btree,D,stree,'Sine'); title('arbore'); %save rez z -ascii; Instrucţiunile care fac diferenţa dintre progrmele 2 1 şi 3 au fost scrise cu litere îngroşate În tabelul următor se prezintă rezultatele rulării programului 3 Nr defrszObservaţii [dB] c0 ordine 13 4183 26 07011 iteraţie 2 4 7850 28 86610 iteraţii 3 4 4692 27 82010 iteraţii 4 2 5564 25 41621 iteraţie 5 2 4813 23 1911 1 iteraţie 6 3 2946 26 88121 iteraţie 7 4 0716 27 3254 0 iteraţii 8 4 0059 26 9479 0 iteraţii 95 1506 27 70761 iteraţie 10 3 8406 27 4574 0 iteraţii 15 5 6672 28 3064 0 iteraţii 17 2 9008 21 55710 iteraţii Tabelul 5 3 1 Rezultatele experimentului 3 Se constată că toţi factorii de compresie au crescut Valorile rapoartelor semnal pe zgomot la ieşire sunt încă prea mari (se poate considera că s-a realizat o compresie transparentă dacă raportul semnal pe zgomot la ieşire este mai mare decât 20 dB) Factorii de compresie ai fiecărui segment pot fi crescuţi în continuare dacă se face o alegere adaptivă a valorii de prag, t, (astfel încât raportul semnal pe zgomot la ieşire să fie în jur de 20 dB pentru fiecare segment) şi dacă se utilizează metode de codare a datelor performante Este vorba de trei categorii de date: valorile coeficienţilor nenuli, poziţiile coeficienţilor nenuli şi arborele celei mai bune baze Pentru fiecare categorie de date pot fi realizate codări (compresii fără pierderi) performante, capabile să scadă numărul de biţi necesari pentru reprezentarea categoriei respective De exemplu, în cazul arborelui celei mai bune baze poate fi utilizată o codare run-lenght, ţinând seama de faptul că acest şir de date conţine secvenţe lungi de biţi de valoare 0 Pentru codarea valorilor coeficienţilor nenuli s-ar putea utiliza o codare Huffman sau o codare aritmetică La fel pentru codarea poziţiilor coeficienţilor nenuli Structura blocului de date 5 3 Al treilea experiment 79 corespunzător unui segment, inspirată de metoda de compresie folosită în experimentul 3 este prezentată în figura următoare Antet segmentAntetValoriPoziţiiAntetValoriPoziţii banda banda banda banda 1 banda 1 banda 1 323232 Figura 5 3 1 Structura blocului de date corespunzător unui segment, inspirată de experimentul 3 În antetul segmentului este codat arborele celei mai bune baze şi apoi valoarea maximă a coeficienţilor de pe acel segment De aceea acesta va fi un cuvânt de 22 de biţi (16 pentru arbore şi 6 pentru valoarea maximă) În antetele benzilor sunt codate valorile maxime ale coeficienţilor din benzile respective precum şi numărul de coeficienţi nenuli din banda respectivă De aceea ele au o lungime de 11 biţi În k Lungimea blocurile "Valori banda k" sunt codate valorile coeficienţilor nenuli din banda k, 32,1= unui astfel de bloc este un multiplu de 6 În blocurile "Poziţii banda k" sunt codate poziţiile coeficienţilor nenuli din banda k Fiecare astfel de poziţie este codată pe 5 biţi De aceea lungimea acestui bloc trebuie să fie un multiplu de 5 Trebuie remarcat că există multe benzi care conţin doar coeficienţi nuli Blocul corespunzător unei astfel de benzi conţine doar 14 biţi, toţi de valoare 0 Datorită prezenţei grupului de 14 zerouri într-un astfel de antet se ştie că este vorba despre o bandă care conţine doar coeficienţi de valoare nulă De aceea următorul grup de biţi este considerat un nou antet de bandă (dacă antetul curent nu era al 32-lea) sau un nou antet de segment În continuare se prezintă ultimul experiment din acest capitol, care se referă la alegerea adaptivă a valorii pragului, t 5 4 Al patrulea experiment Se utilizează în acest scop algoritmul adaptiv de alegere a pragului, prezentat în capitolul anterior În continuare se prezintă programul utilizat pentru realizarea acestui experiment Programul 4 [s,fs,wmode,fidx]=readwav('problem wav','y',-1,-1); x=s(1:1024); %calculul puterii semnalului de intrare; i=x *x; Pi=sum(i); % analiza cu pachete cosinusoidale; [n,D]=dyadlength(x); cp=cpanalysis(x,D,'Sine'); %iniţializarea pragului; t=0 1 *sqrt(Pi /1024); %alegerea celei mai bune baze; eps=t; stree=calcstattree(cp,'N(eps)',eps); [btree,vtree]=bestbasis(stree,3); %calculul transformării cu pachete cosinusoidale; coef=fpt cp(btree,x,D,'Sine'); % compararea cu pragul; y=hardthresh(coef,t); % determinarea raportului semnal pe zgomot după hardthresh; e=-coef+y; o=e *e; Po=sum(o); % alegerea pragului optim; rsz=10 *log10((Pi) /(Po)); while (rsz>=20), t=t+t /10; eps=t; stree=calcstattree(cp,'N(eps)',eps); [btree,vtree]=bestbasis(stree,3); coef=fpt cp(btree,x,D,'Sine'); y=hardthresh(coef,t); e=-coef+y; o=e *e; Po=sum(o); rsz=10 *log10((Pi) /(Po)); end; ampl=max(y); % împărţirea în 32 benzi;determinarea numărului de nivele de cuantizare în fiecare bandă b(k);determinarea nr de biţi în fiecare bandă nb(k); cuantizarea în fiecare bandă; determinarea numărului de coeficienţi nenuli în fiecare bandă N(k); iniţializare; yk=zeros(32,32); ykc=zeros(32,32); ykf=zeros(32,32); yf=zeros(1,1024); 805 4 Al patrulea experiment % împărţirea în 32 de benzi: for k=1:1:32; yk(k,:)=y(32 *(k-1)+1:32 *k); % normarea în fiecare bandă; determinarea valorii maxime în fiecare bandă; z(k)=max(abs(yk(k,:))); %cuantizarea uniformă pe 6 biţi a valorii maxime din fiecare bandă; b(k)=round(z(k) /(ampl) *64); % determinarea numărului de biţi necesar pentru cuantizarea benzii k; nb(k)=round(log2(b(k)+1)); % cuantizarea uniformă pe 6 biţi în fiecare bandă; ykc(k,:)=round((yk(k,:) /(z(k)+0 01)) *b(k)); % determinarea numărului de coeficienţi nenuli din fiecare bandă; N(k)=nnz(ykc(k,:)); % denormarea în fiecare bandă; ykf(k,:)=(ykc(k,:) /(b(k)+0 01)) *z(k); % reasamblarea secvenţei de 1024 de eşantioane; yf=[ykf(1,:) ykf(2,:) ykf(3,:) ykf(4,:) ykf(5,:) ykf(6,:) ykf(7,:) ykf(8,:) ykf(9,:) ykf(10,:) ykf(11,:) ykf(12,:) ykf(13,:) ykf(14,:) ykf(15,:) ykf(16,:) ykf(17,:) ykf(18,:) ykf(19,:) ykf(20,:) ykf(21,:) ykf(22,:) ykf(23,:) ykf(24,:) ykf(25,:) ykf(26,:) ykf(27,:) ykf(28,:) ykf(29,:) ykf(30,:) ykf(31,:) ykf(32,:)]; % determinarea numărului de biţi folosiţi pentru cuantizare; Nc=N*nb'; end; % determinarea numărului de biţi necesar ptr codarea valorilor maxime din fiecare bandă; B=sum(nb); % determinarea numărului de coeficienţi nenuli; Nn=sum(N); % calculul transformării inverse; z=ipt cp(btree,yf,D,'Sine'); % calculul raportului semnal pe zgomot pe segment; e=-x+z'; o=e *e; Po=sum(o); rsb=10 *log10((Pi) /(Po)); % calculul factorului de compresie pe segment; numărul de biţi necesari pentru codarea poziţiilor este 5Nn deoarece pentru codarea a 32 de poziţii (câte există într-o bandă) sunt necesari 5 biţi, 16 biţi se folosesc pentru codarea arborelui celei mai bune baze; fc=(1024 *16) /(Nc+Nn *5+B+16); % reprezentări grafice; figure(1); subplot(121); plot(x); title('s de intr'); subplot(122); plot(z); title('s rec'); figure (2); plotbasistree(btree,D,stree,'Sine'); title('arbore'); %salvarea segmentului reconstruit; Acesta se salvează în format ascii în directorul d\Matlab5\toolbox\Wavelab El poate fi reîncărcat dacă se transferă în d\Matlab5\lucru şi apoi se foloseşte load rez1 ASCII %save rez1 z -ascii; Caracterele instrucţiunilor noi, în comparaţie cu programul 3, au fost îngroşate În tabelul următor se prezintă rezultatele obţinute în urma rulării acestui program Cele 25 de segmente obţinute în urma reconstrucţiei (efectuată pe fiecare segment) au fost concatenate obţinându-se semnalul reconstruit în urma compresiei Forma sa de undă este prezentată în figura următoare şi poate fi comparată cu forma de undă a semnalului iniţial, prezentată în figura 5 1 Cele două semnale, iniţial şi reconstruit pot fi şi asculatate În acest scop au fost create două fişiere de tip wav, init wav şi reconstr wav În urma ascultării semnalului reconstruit se remarcă că metoda de compresie descrisă este transparentă, propoziţia rostită putând fi înţeleasă cu uşurinţă Se remarcă şi faptul că metoda de compresie îmbunătăţeşte chiar calitatea semnalului iniţial Acesta este însoţit de un zgomot de fond, care este perceput mai ales la sfârşitul fragmentului Acest zgomot de fond nu mai poate fi perceput în semnalul reconstruit Acesta este însă puţin distorsionat, percepându-se un efect de sacadare, care este datorat erorilor la marginile segmentelor care apar în calculul TPC Efectul de sacadare poate fi înlăturat prin aplicarea unei metode de tip overlapp and save, aşa cum se arată în Analizând tabelul 5 4 1 se constată faptul că s-au obţinut valori acceptabile pentru factorii de compresie şi pentru rapoartele semnal pe zgomot la ieşire, pentru fiecare segment Cel mai mic factor de compresie, de 4,05, a fost obţinut pe segmentul 17 iar cel mai mare factor de compresie, de 18,3, pe segmentul 15 La valorile factorilor de compresie pe segment deranjează în special dispersia mare obţinută Cel mai mic factor de compresie este de 4 ori mai mic decât cel mai mare factor de compresie obţinut 5 4 Al patrulea experiment 81 Nr defrsz [dB]Observaţii c0 ordine 17 396819 4129 zgomot preponderent (3 iteraţii) 215 984418 9756 sinus preponderent (0 iteraţii) 312 661518 9907 sinus preponderent (3 iteraţii) 4 4 431719 1134 preponderent zgomot (2 iteraţii) 54 114518 8286 preponderent zgomot (0 iteraţii) 6 7 869419 5280 sinus preponderent (2 iteraţii) 713 385619 4330 sinus preponderent (0 iteraţii) 812 790019 3277 sinus preponderent (0 iteraţii) 916 433319 6479 sinus preponderent (2 iteraţii) 1011 338419 3460 sinus preponderent (2 iteraţii) 118 118919 5016 sinus preponderent (2 iteraţii) 126 182619 2819 preponderent zgomot (3 iteraţii) 13 7 816819 5904 sinus preponderent (2 iteraţii) 1412 6811 19 7608 preponderent zgomot (0 iteraţii) 1518 306119 7918 sinus preponderent (0 iteraţii) 16 7 484718 5319 preponderent zgomot (1 iteraţie) 17 4 053416 3397 preponderent zgomot (0 iteraţii) 1818 044119 3680 sinus preponderent (3 iteraţii) 1912 109419 8325 sinus preponderent (0 iteraţii) 20 8 346419 1047 preponderent zgomot (0 iteraţii) 219 330319 7703 2 iteraţii 2214 185319 09361 iteraţie 2314 209918 19521 iteraţie 2414 827119 27951 iteraţie 25 8 528917 45121 iteraţie Tabelul 5 4 1 Rezultatele experimentului 4 Figura 5 4 1 Forma de undă a semnalului reconstruit 82 5 4 Al patrulea experiment Pe baza analizei tabelului se constată că valori mai mici ale factorului de compresie, cuprinse între 4 şi 8 au fost obţinute pe segmentele clasificate ca şi zgomotoase Repartiţia rapoartelor semnal pe zgomot la ieşire este mult mai omogenă Cea mai mică valoare, 16,33 dB, s-a înregistrat pe segmentul 17 iar cea mai mare valoare, 19,83, pe segmentul 19 Toate aceste valori sunt suficient de mari pentru a certifica o reconstrucţie de calitate Valoarea medie a factorului de compresie obţinut este de 10,82 Aceasta este o valoare destul de ridicată ţinând seama de faptul că nu s-au utilizat metode de compresie fără pierderi pentru codarea arborelui celei mai bune baze respectiv pentru valorile şi poziţiile coeficienţilor Este de presupus că dacă s-ar fi utilizat şi astfel de tehnici de codare valoarea medie a factorului de compresie ar fi fost de cel puţin 1,5 ori mai mare, adică de 16,23 Capitolul 6 Concluzii Problema centrală a acestei teze, prezentată în capitoul 1, este compresia semnalului de vorbire, realizată cu ajutorul funcţiilor "wavelet" Schema sistemului de compresie propus este cea din figura 2 1 1 şi reprezintă firul roşu al acestei lucrări Este vorba despre o schemă de compresie cu pierderi de informaţie controlate O astfel de metodă de compresie se pretează în cazul semnalului de vorbire deoarece acesta este foarte redundant Schema propusă este specifică pentru un sistem de compresie bazat pe utilizarea unei transformări ortogonale O astfel de transformare este utilă deoarece realizează decorelarea semnalului de prelucrat, făcând posibilă eliminarea unor eşantioane din domeniul transformatei, fără a afecta semnificativ conţinutul informaţional al semnalului de prelucrat Există şi alte transformări care pot realiza decorelarea, neortogonale, dar acestea sunt mai redundante decât transformările ortogonale, motiv pentru care au fost evitate în această lucrare Există mai multe transformări ortogonale care ar putea fi folosite pentru compresia semnalului de vorbire Cea care realizează decorelarea maximă este transformarea Karhunen-Loeve Din păcate nu există algoritmi rapizi pentru implementarea acestei transformări Ea este o transformare dependentă de semnalul prelucrat, bazată pe inversarea unei matrici, operaţie consumatoare de timp şi de volum de calcul Există semnale pentru care matricea nu este nici măcar inversabilă În lucrarea de faţă se propune utilizarea transformărilor ortogonale, bazate pe teoria funcţiilor "wavelet" Acestea reprezintă descompuneri ale semnalului de prelucrat în baze ortonormale ale căror elemente se obţin prin translatarea şi scalarea unei funcţii unice, numită funcţie "wavelets mother" Avantajul major al acestor funcţii este că ele posedă simultan o bună localizare temporală şi frecvenţială De aceea o astfel de descompunere, numită serie de funcţii "wavelet", are un număr mic de coeficienţi de valori semnificative Compresia se realizează prin transmisia sau memorarea acestor coeficienţi, în locul eşantioanelor semnalului de prelucrat Cunoştiinţele necesare din cadrul teoriei funcţiilor "wavelet" au fost prezentate în capitolul 2, dintr-o perspectivă originală, cea a teoriei codării în subbenzi Au fost prezentate schemele de codare şi decodare în subbenzi De asemenea s-au prezentat principalele concepte ale teoriei funcţiilor "wavelet", analiza multirezoluţie şi descompunerea ortogonală şi s-a aratăt că acestea pot fi descrise prin acelaşi formalism matematic ca şi codarea în subbenzi Au fost analizate trei tipuri de transformări ortogonale, bazate pe teoria funcţiilor "wavelet", transformarea "wavelet" discretă, TUD, transformarea cu pachete de funcţii "wavelet" discretă, TPWD şi transformarea cu pachete cosinusoidale discretă, TPC A fost evidenţiat efectul de decorelare al acestor transformări, demonstrându-se că toate trei converg asimptotic spre transformarea Karhunen-Loeve Aceste demonstraţii au fost întărite prin exemple Pe baza acestor exemple s-a constat că, din punct de vedere al vitezei de convergenţă spre transformarea Karhunen-Loeve, cel mai bine se comportă TPC Una dintre dificultăţile ridicate de folosirea TUD sau TPWD este necesitatea alegerii funcţiei de tip "wavelets mother" care se utilizează pentru calculul acestor transformări Această alegere ar putea fi făcută în acord cu forma semnalului de prelucrat Un criteriu de alegere, util în aplicaţiile de compresie, a fost elaborat şi publicat de către autorul acestei teze, Utilizarea TPC are şi avantajul că permite alegerea celei mai bune baze, folosind un criteriu util pentru compresie şi anume minimizarea numărului de coeficienţi ai transformatei mai mari decât un anumit prag Tot în capitolul 2, pe baza modelului sinusoidal al vorbirii, se sugerează că cea mai potrivită transformare ortogonală, dintre cele trei amintite mai sus, pentru compresia vorbirii, este TPC Demonstraţia acestei propoziţii ar merita să se aprofundeze În capitolul 3 s-a prezentat detectorul de prag din schema din figura 2 1 1 Se remarcă caracterul adaptiv al acestui sistem Se propune un algoritm simplu şi destul de rapid pentru implementarea acestui bloc Se prezintă o modalitate de iniţializare a pragului, utilă pentru creşterea vitezei algoritmului de detecţie de prag Algoritmul adaptiv propus se bazează pe minimizarea erorii medii pătratice de aproximare a semnalului de prelucrat prin semnalul reconstruit în urma compresiei 84 Capitolul 6 Concluzii Ţinând seama de caracterul ortogonal al transformărilor utilizate, nu este necesară, pentru calculul erorii de aproximare, reconstrucţia semnalului supus compresiei Eroarea medie pătratică de aproximare poate fi calculată în domeniul transformatei, folosind semnalul de la ieşirea blocului de calcul al transformării ortogonale şi semnalul de la ieşirea blocului de cuantizare Deşi criteriul erorii medii pătratice nu este cel mai potrivit pentru aprecierea unei metode de prelucrare a vorbirii, simplitatea sa îl face foarte folositor Poate că ar merita reluarea acestei probleme şi rezolvarea sa prin minimizarea unui alt criteriu, bazat pe calculul unei distanţe, construită folosind modelul pdiho-acustic al vorbirii, aşa cum se propune în Capitolul 4 prezintă sistemul de cuantizare din schema din figura 2 1 1 Acesta este un sistem adaptiv, care funcţionează pe baza unei variante simplificate a modelului psiho-acustic al audiţiei vorbirii Construcţia sa exploatează şi utilizarea TPC în schema de compresie aleasă Utilizarea acestui sistem are o contribuţie importantă la creşterea factorului de compresie al sistemului propus Sistemul de cuantizare este foarte simplu, în fiecare bandă critică a semnalului de vorbire efectuându-se o cuantizare uniformă pe 6 biţi Cuanta este diferită de la bandă critică la bandă critică, deoarece în fiecare astfel de bandă se realizează normarea la valoarea maximă De aceea se poate considera că pe ansamblu sistemul realizează o cuantizare neuniformă Aceasta este şi adaptivă deoarece se ţine seama de forma semnalului de prelucrat prin intermediul valorilor maxime din fiecare bandă critică Sistemul de cuantizare poate fi privit şi ca şi un sistem de compresie a dinamicii semnalului de prelucrat (cum sunt sistemele Dolby sau DNL) realizând aceeaşi excursie pentru fiecare dintre semnalele din fiecare bandă critică Un demers de acelaşi tip este prezentat în Capitolul 5 este dedicat simulării sistemului de compresie descris în capitolele anterioare Se fac mai multe experimente, mergând de la simplu la complex În primul experiment, cel mai simplu, blocurile din structura sistemului de compresie nu sunt adaptive În urma efectuării acestui experiment se constată existenţa a două tipuri de segmente de vorbire: preponderent sinusoidale şi preponderent zgomotoase Pentru primele, modelul sinusoidal al vorbirii este respectat în mare măsură, în timp ce pentru celelalte modelul sinusoidal este respectat în mică măsură Se remarcă că pentru segmentele preponderent zgomotoase se obţin factori de compresie mai mici Cel de al doilea experiment se referă la utilizarea unui prim bloc adaptiv Este vorba de blocul pentru calculul transformării ortogonale În primul experiment se folosea transformarea cosinus disretă, DCT (dacă nu se efectuează nici o iteraţie în calculul TPC atunci se calculează de fapt DCT) În cel de al doilea experiment se calculează TPC, folosindu-se algoritmul de căutare a celei mai bune baze care minimizează funcţionala de cost dată de numărul de coeficienţi ai TPC mai mari decât un anumit prag Valoarea acestui prag este cea care corespunde formulei de iniţializare propusă în capitolul 3 Este vorba deci despre o transformare ortogonală adaptivă Superioritatea TPC asupra DCT este evidenţiată pe baza creşterii valorilor factorilor de compresie obţinuţi în cel de al doilea experiment faţă de cei obţinuţi în primul experiment Pe baza celui de al doilea experiment se demonstrează şi necesitatea limitării numărului de iteraţii al TPC Cel de al treilea experiment este destinat studierii efectului utilizării unui bloc de cuantizare adaptiv Se dovedeşte că folosind un astfel de bloc valorile factorilor de compresie obţinuţi pe fiecare segment cresc substanţial În sfârşit cel de al patrulea experiment are ca scop evidenţierea îmbunătăţirilor care se pot obţine dacă se utilizează şi un detector de prag adaptiv Se constată că şi utilizarea unui astfel de bloc creşte substanţial valorile factorilor de compresie de pe fiecare segment Pentru simularea fiecărui experiment s-a utilizat câte un program Matlab Aceste programe au fost construite recurent, pentru fiecare nou experiment completându-se cu câteva instrucţiuni noi programul corespunzător experimentului anterior Astfel programul obţinut pentru ultimul experiment reprezintă programul final, cel care simulează funcţionarea întregului sistem adaptiv de compresie De aceea concluziile care se pot trage pentru experimentul 4 sunt valabile pentru metoda de compresie propusă Acestea sunt: - Folosind metoda de compresie descrisă se obţine un factor de compresie mediu de 10,82, pentru semnalul de prelucrat considerat, superior factorului de compresie realizat de codorul GSM care este de 8 (conform calculului efectuat în , la începutul capitolului 6) Capitolul 6 Concluzii 85 - Factorul de compresie al metodei propuse este şi mai mare dacă pentru codarea datelor rezultante, conţinute în arborele celei mai bune baze şi în valorile şi poziţiile coeficienţilor nenuli obţinuţi, se utilizează metode de codare performante, ca de exemplu codarea run- leght sau codarea aritmetică În toate calculele de factor de compresie efectuate în această lucrare nu s-a ţinut seama de faptul că pentru transmiterea semnalului comprimat, pe canale de telecomunicaţii ar trebui făcută şi codarea canalului Aceasta este o operaţie redundantă care scade valoarea factorului de compresie global S-a procedat în acest fel din două motive: - nici în cazul standardelor de compresie a semnalului de vorbire deja publicate, cum ar fi GSM sau MPEG, nu se ţine seama de codarea canalului la calculul factorului de compresie; - există aplicaţii ale metodei de compresie a vorbirii propusă în această teză, la care nu este necesară codarea canalului, de exemplu memorarea unei convorbiri sau telefonia pe INTERNET (în acest caz se poate considera că se foloseşte un canal fără zgomot) Oricum pe baza analizei statistice efectuate în paragraful 3 2 se constată că metoda de compresie propusă în această lucrare este robustă - Metoda propusă asigură o calitate bună a reconstrucţiei (pe fiecare segment se obţine un raport semnal pe zgomot la ieşire superior valorii de 16 dB, iar valoarea medie a raportului semnal pe zgomot, pe ansamblul segmentelor depăşeşte 20 dB), putând considera că s-a realizat o compresie transparentă, în timp ce codorul GSM, evocat mai sus, nici măcar nu estimează calitatea reconstrucţiei De altfel ascultând semnalul reconstruit se constată că zgomotul care perturbă componenta utilă a semnalului de prelucrat a fost în mare măsură eliminat Este remarcabil faptul că valorile coeficienţilor nenuli obţinuţi sunt cuantizate doar pe 6 biţi; - Metoda de compresie folosită este destul de rapidă, ţinând seama de faptul că numărul de înmulţiri necesar nu este exagerat De exemplu calculul TPC al unei secvenţe se face la fel de repede ca şi calculul FFT-ului aceleaşi secvenţe De aceea ar merita să se încerce implementarea acestei metode de compresie a vorbirii pe un procesor de semnal; - Programul 4 ar trebui modificat, în aşa fel încât pe fiecare segment să se rezolve problemele la margini, care dau caracterul sacadat al semnalului reconstruit; - Poate că ar fi util ca înaintea aplicării metodei de compresie să fie crescut raportul semnal pe zgomot al semnalului de prelucrat, folosindu-se în acest scop metoda propusă în ; - Metoda de compresie propusă, poate beneficia, la fel ca şi metoda de compresie bazată pe predicţie liniară, folosită în standardul GSM, de blocuri de preprocesare, cum ar fi de exemplu blocul de identificare a intervalelor de linişte dintre cuvinte, respectiv propoziţii sau fraze În acest mod ar putea fi crescut factorul de compresie global; - Pentru aprecierea obiectivă a metodelor de compresie a vorbirii ar putea fi utilizate măsurile propuse în , bazate pe utilizarea modelului psiho-acustic al vorbirii De altfel aşa cum s-a arătat în paragraful destinat prezentării metodei de cuantizare folosite, se pare că există nişte legături subtile între metoda de compresie propusă şi modelul psiho-acustic al vorbirii care ar merita să fie investigate mai în detaliu Ambele se bazează pe analiză spectrală (de fapt coeficienţii TPC pot fi priviţi ca şi componente spectrale ale unor segmente ale blocului de vorbire supus compresiei), ambele fac apel la benzi critice şi ambele îndepărtează anumiţi coeficienţi prin detecţie de prag Un astfel de demers este făcut în - O posibilitate de creştere a factorului de compresie ar fi şi combinarea metodei de compresie bazată pe teoria funcţiilor "wavelet", care face obiectul tezei de faţă cu metoda de compresie, bazată pe predicţia liniară, care stă la baza standardului GSM S-ar putea ca segmentele preponderent sinusoidale să fie prelucrate cu metoda bazată pe teoria funcţiilor "wavelet" iar segmentele preponderent zgomotoase să fie prelucrate cu metoda bazată pe predicţia liniară 86 Capitolul 6 Concluzii - Pentru metoda de compresie a vorbirii prezentată se au în vedere mai multe aplicaţii Ea ar putea fi folosită în aplicaţiile de telefonie numerică fixă sau mobilă, încadrându-se în categoria metodelor cu factor de compresie ridicat şi cu calitate a reconstrucţiei controlată De fapt metoda propusă ar putea fi numită compresie cu pierderi (de informaţie) controlate, lărgindu-se pe baza sa clasificarea metodelor de compresie care până acum conţinea doar două tipuri de tehnici de compresie, cele fără pierderi şi cele cu pierderi Tot pe baza metodei de compresie propuse ar putea fi concepute noi echipamente de redare a vorbirii, de tipul echipamentelor bazate pe tehnica de compresie MP3, folosite pentru redarea muzicii Cu alte cuvinte această metodă poate fi folosită pentru memorarea de înaltă fidelitate a convorbirilor telefonice Ar putea fi concepute noi tipuri de roboţi telefonici, pe baza acestei tehnici de compresie De asemenea această tehnică de compresie ar putea fi folosită şi în aplicaţiile de secretizare a convorbirilor telefonice În acest sens se întrevăd două aplicaţii În sistemele de protecţie a poştei electronice, cum este de exemplu sistemul PGP, , înainte de criptarea efectivă a mesajului se face o compresia a acestuia Operaţia de compresie creşte gradul de securitate al metodei de criptare folosite Acelaşi lucru ar putea fi făcut în sistemele de criptare a vorbirii, folosindu-se metoda de compresie propusă în această lucrare Cea de a doua aplicaţie posibilă este legată de "balizarea" semnalului de vorbire, În astfel de aplicaţii compresia este privită ca şi un atac involuntar De aceea cunoaşterea metodei de compresie poate conduce la elaborarea unei metode de "balizare" robuste la atacul de compresie Metoda de compresie a vorbirii propusă în această lucrare ar putea fi folosită şi în cadrul sistemelor de telefonie pe INTERNET, respectiv la construcţia unor modemuri de mare viteză, Capitolul 7 Contribuţii originale În continuare se prezintă contribuţiile originale raportate în această teză Acestea pot fi grupate în trei categorii: - Contribuţii de importanţă majoră, - Contribuţii de importanţă limitată, - Contribuţii de detaliu Oricare dintre acestea poate fi de natură teoretică sau de natură practică Pentru început se prezintă principalele contribuţii din prima categorie 1 Utilizarea TPC la compresia vorbirii 2 Demonstraţia convergenţei TUD, TPWD şi TPC spre transformarea Karhunen-Loeve Aceste demonstraţii sunt prezentate în paragrafele 2 2 1, 2 2 2 şi 2 2 3 3 Algoritmul de selecţie adaptivă a pragului pentru blocul DP, prezentat în paragraful 3 1 4 Algoritmul de cuantizare adaptivă, propus în paragraful 4 2 5 Alegerea colecţiei de rutine Wavelab ale mediului Matlab pentru simularea metodei de compresie a vorbirii, făcută în capitolul 5 În continuare se prezintă contribuţiile din cea de a doua categorie 1 Alegerea criteriului de selecţie a celei mai bune baze, pentru TPC, bazat pe minimizarea numărului de coeficienţi de valoare superioară unui prag impus, prezentat în paragraful 2 3 2 Limitarea numărului de iteraţii al TPC, la maximum trei, pentru simplificarea codării arborelui celei mai bune baze, făcută în capitolul 5 3 Exemplificarea convergenţei TUD, TPWD şi TPC spre transformarea Karhunen-Loeve Aceste exemple apar în paragrafele 2 2 1, 2 2 2 şi 2 2 3 4 Analiza statistică a detectorului de prag, făcută în paragraful 3 2 5 Alegerea TPC ca transformare ortogonală folosită pe baza asemănării dintre combinaţiile liniare ale elementelor unui pachet cosinusoidal şi modelul sinusoidal al semnalului de vorbire, prezentată în paragraful 2 3 6 Elaborarea sistemului de cuantizare adaptivă în acord cu modelul psiho-acustic al audiţiei semnalului de vorbire Acest sistem este prezentat în paragraful 4 2 7 Structura adaptivă a sistemului de compresie prezentat în figura 2 1 1 Acest sistem foloseşte blocuri adaptive pentru calculul transformării ortogonale directă şi inversă, pentru detecţia de prag şi pentru cuantizare Aceste blocuri sunt prezentate, pe rând, în capitolele acestei teze În acest sistem ar putea fi incluse şi blocuri de codare pentru arborele celei mai bune baze şi pentru valoarea şi poziţia coeficienţilor TPC superiori pragului t, tot de natură adaptivă În sistemul de compresie propus se remarcă două categorii de adaptări: locale şi globale Adaptările locale se bazează pe criterii diferite De exemplu alegerea celei mai bune baze pentru pachetul cosinusoidal urmăreşte minimizarea numărului de coeficienţi ai transformării TPC mai mari decât pragul t Şi alegerea numărului de iteraţii al TPC se face pe baza aceluiaşi criteriu Alegerea valorii de prag t, se face în mod adaptiv, urmărindu-se obţinerea unei distorsiuni de reconstrucţie inferioare unui prag impus Cuantizarea adaptivă urmăreşte minimizarea numărului de biţi folosiţi pentru descrierea semnalului comprimat Trebuie remarcat faptul că există "un consens" între naturile convergenţelor acestor algoritmi, obţinându-se o metodă adaptivă globală convergentă Criteriul global, pe baza căruia se realizează adaptarea sistemului din figura 2 1 1 este cel al păstrării erorii medii pătratice de reconstrucţie sub o valoare impusă Deci criteriul dominant pentru întreaga schemă de compresie este cel folosit pentru alegerea valorii de prag, t 88 Capitolul 7 Contribuţii originale 8 Concepţia programelor de simulare a metodelor de compresie a vorbirii, descrise în cele patru experimente, descrise în capitolul 5, cu o structură cu evoluţie gradată, de la simplu la complex În continuare se prezintă contribuţiile de detaliu 1 Prezentarea teoriei funcţiilor "wavelet", făcută în capitolul 2, prin prisma teoriei sistemelor de codare în subbenzi 2 Evitarea utilizării transformărilor "wavelet" redundante, cum ar fi transformările biortogonale, la compresia semnalului de vorbire, pe baza observaţiei O3, din paragraful 2 1 2 3 Una dintre preocupările cele mai interesante ale autorului acestei teze a fost cea mai bună alegere a răspunsului la impuls h[n], pentru filtrele trece-jos din structura TUD, pe baza semnalului de prelucrat, pentru maximizarea factorului de compresie, la o distorsiune de reconstrucţie impusă Această tehnică este prezentată în 4 Observaţia din paragraful 2 1 4 conform căreia principalul avantaj al pachetelor de funcţii "wavelet" este că acestea oferă mult mai multă liberate în alegerea bazei în care se descompune semnalul de analizat Având la dispoziţie un număr mai mare de subbenzi, se poate îmbunătăţi localizarea frecvenţială a componentelor semnalului de analizat Se poate chiar implementa o bancă de filtre de analiză care să aibă exact partiţia în benzi critice recomnadată de modelul psiho-acustic de audiţie a vorbirii 5 Observaţia de la sfârşitul paragrafului 2 1 4 conform căreia: Pachetele cosinusoidale rezolvă o deficienţă cronică a pachetelor de funcţii "wavelet", şi anume localizarea în timp Orice pachet de funcţii "wavelet" corespunde unei anumite bănci de filtre de analiză, care realizează o anumită codare în subbenzi Pe tot parcursul calculului TPWD, aceste filtre rămân neschimbate În consecinţă, TPWD nu realizează nici o localizare în timp a acestei bănci de filtre În cazul TPC, în fiecare interval Im, se lucrează cu o altă funcţie "wavelets mother", deci cu o altă bancă de filtre de analiză, făcându-se o localizare temporală a acestor bănci 6 Observaţiile din paragraful 2 2 1 7 Ilustrarea proprietăţii de Gaussianizare a TUD, din figura 3 1 1 3 8 Evidenţierea importanţei alegerii funcţiei de tip "wavelets mother" pentru compresia bazată pe folosirea TUD, cu ajutorul figurilor 2 3 1-2 3 3 9 Utilizarea modelului matematic al vorbirii din relaţia 2 3 2 10 Propoziţia 3 1 1 din paragraful 3 1, pe baza căreia se poate iniţializa algortimul de detecţie de prag 11 Aproximarea pragului de mascare din modelul psiho-acustic al audiţiei vorbirii prin pragul folosit de sistemul DP din schema din figura 2 1 1 , prezentată în paragraful 4 2 12 Formula de calcul al factorului de compresie, (4 3) 13 Operaţiile de normalizare şi denormalizare, introduse în legătură cu cuantizarea adaptivă, propusă în paragraful 4 2 14 Programele 1, 2, 3 şi 4 Acestea pot fi folosite, cu modificări minimale, la simularea metodei de compresie propusă şi în cazul altor semnale de vorbire Ele au următoarele caracteristici comune: - sunt implementate în MATLAB, - citesc datele de intrare dintr-un fişier în format WAVE, care conţine semnalul de vorbire codat PCM pe 16 biţi, - fixează valoarea minimă a raportului semnal pe zgomot al semnalului reconstituit la 16 dB, dar pe majoritatea segmentelor se obţin valori mai mari decât 18 dB Capitolul 7 Contribuţii originale 89 - Lucrează pe segmente ale semnalului de vorbire conţinând câte 512 eşantioane - Numărul de iteraţii al TPC este limitat la maximum 3 - Utilizează criteriul de alegere a celei mai bune baze prin minimizarea numărului de coeficienţi ai TPC, superiori unei valori de prag impusă - Face o alegere adaptivă a valorii de prag, t 15 Clasificarea segmentelor semnalului de prelucrat în preponderent sinusoidale şi preponderent zgomotoase 16 Concepţia celor patru experimente descrise în capitolul 5, precum şi rezultatele acestora 17 Exemplul de codare a arborelui celei mai bune baze din figura 5 2 3 18 Structura blocului de date corespunzător unui segment, inspirată de experimentul 3, propusă în figura 5 3 1 19 Evidenţierea importanţei utilizării unui anumit tip de sistem de cuantizare, prin experimentul 3 20 Evidenţierea importanţei utilizării unui sistem de detecţie de prag, adaptiv, prin experimentul 4 21 Concluziile obţinute pe baza efectuării experimentului 4, raportate în capitolul 5 22 Concluziile, direcţiile viitoare de cercetare precum şi aplicaţiile potenţiale ale metodei de compresie propuse, prezentate în capitolul 6 23 Evidenţierea contribuţiilor originale realizată în acest capitol 24 Bibliografia este împărţită în două părţi În prima sunt prezentate lucrările care sunt citate în textul tezei În cea de a doua sunt grupate, pe subiecte, lucrări de interes pentru domeniul tezei, care au fost consultate, la întocmirea celor trei referate aferente: , şi Bibliografie Partea I Referinţele din teză A Cubiţchi "Stadiul actual al tehnicilor de compresie a semnalului vocal în telefonia numerică", Referat nr 1, în cadrul pregătirii pentru doctorat, Departamentul de comunicaţii, Facultatea de Electronică şi Telecomunicaţii, Timişoara, 1999, Conducător ştiinţific Prof dr ing Ioan Naforniţă N Moreau “Techniques de compression des signaux”, Masson, Paris 1995 A Cubiţchi "Metode de compresie a semnalului vocal cu eficienţã ridicatã", Referat nr 2, în cadrul pregătirii pentru doctorat, Departamentul de comunicaţii, Facultatea de Electronică şi Telecomunicaţii, Timişoara, 2000, Conducător ştiinţific Prof dr ing Ioan Naforni ţă A Isar, I Naforniţă, “Reprezentări timp-frecvenţă”, Ed Politehnica, Timişoara, 1998 A Cubiţchi "Metodă de compresie a semnalului vocal bazată pe utilizarea funcţiilor "wavelet"", Referat nr 3, în cadrul pregătirii pentru doctorat, Departamentul de comunicaţii, Facultatea de Electronică şi Telecomunicaţii, Timişoara, 2001, Conducător ştiinţific Prof dr ing Ioan Naforniţă D Isar “ Îmbunătăţirea raportului semnal pe zgomot în sistemele de telecomunicaţii ”, teză de doctorat realizată sub conducerea ştiinţifică a d-lui Profesor Ioan Naforniţă, Universitatea "Politehnica" Timişoara, 1998 M V Wickerhauser, "Adapted Wavelet Analysis From theory to software", A K Peters Ltd,Massachusetts, 1994 G Malgouyres "Introduction a la théorie des ondelettes" Curs de vară, Timişoara 1994 M J T Smith, T P Barnwell III "Exact Reconstruction Techniques for Tree-Structured Subband Coders" IEEE Trans On ASSP, vol 34, pp 434-441, 1986 A Cohen "Ondelettes et traitement numérique du signal" Masson, 1992 O Rioul "A Discrete Time Multiresolution Theory" IEEE Trans on SP, vol 41, no 8, pp 2591-2606, August 1993 I Daubechies "Orthonormal Bases of Compactly Supported Wavelets" Comm Pure Appl Math , No 41, pp 909-996, 1988 I Daubechies "Ten Lectures on Wavelets" SIAM, Philadelphia 1992 Y Meyer "Ondelettes, filtres miroirs en quadrature et traitement numérique de l’image" În Les ondelettes en 1989 P G Lemarié (editor), Springer-Verlag, 1990 A N Akansu, R A Hadad "Multiresolution Signal Decomposition" Academic Press, New York, 1992 S Mallat "Multifrequency Channel Decomposition" IEEE Trans on ASSP, vol 37, No 12, pp 2091- 2110, Octobre 1989 R Cristescu "Analiză funcţională" Editura Didactică şi Pedagogică, Bucureşti 1965 D L Donoho, I M Johnstone "Unconditional Bases are Optimal Bases for Data Compression and for Statistical Estimation" Technical Report 410, Stanford University, November 1992 J Froment "Traitement d’images et applications de la transformée en ondelettes" Teza de doctorat, Universitatea Paris IX, 1990 J Kovacevic, M Vetterli "Nonseparable Two-and Three-Dimensional Wavelets" Proceedings of ISCAS’93, Chicago,1993 H S Malvar "Lapped Transforms for Efficient Transform/Subband Coding" IEEE Trans on ASSP, vol 38, pp 969-978, June 1990 A Cohen, I Daubechies, J C Feauveau, "Bi-orthogonal bases of compactly supported Wavelets", Comm in Pure and Applied Math ,vol XLV, pp485-560, 1992 R R Coifman, M V Wickerhauser "Wavelets and adapted waveform analysis" in Proceedings of symposia in applied mathematics,SIAM vol 47, 1993, editor Ingrid Daubechies A De Sabata, C Iung, J F Aubry "A Variabile Scale DWT" Proceedings of the International Symposium ETc’94, vol III, pp 43-48, Timişoara Sept 1994 M Vetterli, C Herley, "Wavelets and filter banks: Theory and design", IEEE Transactions on signal processing 40 (9) pp 2207-2232, september 1992 T P Barnwell III, I Sodagar, K Nayebi "Time-varying filter banks and wavelets", IEEE Transactions on signal processing, vol 42, no 11, november 1994 W H Press, S A Teukolsky, W T Vetterling, B P Flannery "Numerical Recipes in C" Cambridge University Press, 1995 O Rioul, M Vetterli "Wavelets and signal processing", IEEE SP Magazine, 8 (4) pp 14-38, october 1991 T Asztalos, A Isar "An Adaptive Data Compression Method Based on the Fast Wavelet Transform" Proceedings of the International Symposium Etc’94, Timişoara, Vol III, pp 37-42, Sept 1994 A Oppenheim, R W Schaefer "Digital Signal Processing" Prentice Hall, 1986 J J Shynk Frequency-domain and multirate adaptive filtering, Signal Processing Magazine, january 1992 T Asztalos "An Algorithm for the DWT on Block Computation" Proceedings of the International Symposium Etc’96, Timişoara, vol II, pp 128-133, Sept 1996 H Krim, D H Brooks "Feature-Based Segmentation of ECG Signals" Proceedings of IEEE Conference, TFTS’96, pp 97-100, Paris, July 1996 O Rioul "Ondelettes régulieres: Applications a la compression d’images fixes" These de doctorat, ENST Paris, Mars 1993 D Donoho Smooth Wavelet Decomposition with Blocky Coefficient Kernels, in Recent Advances in Wavelet Analysis, L Schumaker and G Webb (editors), pp 1-43, 1993 W Sweldens "Wavelet Sampling Techniques", Proceedings of the Joint Statistical Meetings, San Francisco, 1993 E D Kolaczyk "Non-parametric Estimation of Gamma-ray Burst Intensities using Wavelets", în curs de publicare în revista The Astrophysical Journal T Asztalos "Tomography Imaging Radon Transform Inversion Procedures" Raport de stagiu, Universitatea Paris-Sud, Iulie 1997 A Cohen, J P d’Ales "Nonlinear Approximation of Stochastic Processes" În Wavelets and Statistics A Antoniadis si G Oppenheim (editori), Springer Verlag, pp 129-132, 1995 A Mateescu, M Răducanu, L Stanciu "Best Basis with Wavelet Packets for a Signal" Proceedings of International Symposium Etc’96, Timişoara, vol II, pp 106-111, September 1996 M V Wikerhauser "Best-adapted Wavelet Packet Bases", Proceedings of Symposia in Applied Mathematics, vol 47, 1993 Y Meyer "Ondelettes et algorithmes concurents" Herman, Paris, 1993 A Isar, A Cubiţchi "A new best wavelet basis searching method for the compression of smooth signals", Proceedings of IEEE International Conference, ICT 2001, Bucarest, Romania, 4-7 June, 2001 D Pastor, R Gay "Décomposition d’un processus stationnaire du seconde ordre Propriétés statistiques d’ordre 2 des coefficients d’ondelettes et localisation fréquentielle des paquets d’ondelettes" Traitement du signal, vol 12, no 5, pp 393-420, 1995 A Spataru "Fondements de la théorie de la transmission de l’information" Presses Polytechniques Romandes, Lausanne, 1987 V E Neagoe "Introducing a new orthogonal spatial transform for significant data selection", Revista Academiei, nr 13, Editura Academiei, Bucureşti 1983, pag 163-180 R Boite, M Kunt, "Traitement de la parole", Presses Polytechniques Romandes, Lausanne, 1987 T Asztalos, Dorina Isar, A Isar, "Adaptive Capturing Transient Signals using Wavelets", 8-th European Conference on POWER ELECTRONICS AND APPLICATIONS, EpE'99, 7-9 September, 1999, Lausanne, Switzerland Rodica Stoian Compresia de date Algoritmi de predicţie, Ed ştiinţifică şi enciclopedică, Bucureşti, 1988 E Pop, I Naforniţă, V Tiponuţ, A Mihăescu, L Toma, “Metode în prelucrarea numerică a semnalelor”, vol 1, Ed Facla, Timişoara, 1986 E Pop, I Naforniţă, V Tiponuţ, A Mihăescu, L Toma, “Metode în prelucrarea numerică a semnalelor”, vol 2, Ed Facla, Timişoara, 1989 Monica Elena Borda, "Teoria transmiterii informaţiei", Editura Dacia, Cluj-Napoca, 1999 E Pop, V Stoica, “Principii şi metode de măsurare numerică”, Ed Facla, Timişoara, 1977 E Pop, V Stoica, I Naforniţă, E Petriu, “Tehnici moderne de măsurare”, Ed Facla, Timişoara, 1983 Andrei Cubiţchi, Alexandru Isar, "A Statistical Characterization of the uniform Quantization Process", Proceedings of the International Conference of Romanian Military Technical and Technological Research Agency, April 12-13, 2001, Bucarest, Romania D Salomon "Data compression", The Complete Reference, Springer Verlag, New-York, 1998 T Asztalos "Contribuţii la compresia, în domeniul transformatelor "wavelet", a semnalelor audio", Teză de doctorat, Conducător ştiinţific Prof dr ing Miranda Naforniţă, Facultatea de Electronică şi Telecomunicaţii Timişoara, 2001 J B Buckheit, D L Donoho, "WaveLab and Reproducible Research", în Wavelets and Statistics, editori: A Antoniadis şi G Oppenheim, pp 55-83, Springer-Verlag, 1995 Irina Coţanis, "Impacting factors on the Objective Measurement Algorithms for Speech Quality Assessment on Mobile Networks", Proceedings of IEEE International Conference, ICT 2001, Bucarest, Romania, 4-7 June, 2001 M R Zurera, F L Ferreras, F C Roldan, R J Martinez, "Transparent audio coding using orthonormal wavelets with any compact support", International Conference on Signal Circuits and Systems, SCS'99, 5-7 July, 1999, Iaşi, pp 203-206 T Asztalos, A Isar, "Wavelets and Audio Data Compression", International Conference on Signal Circuits and Systems, SCS'99, 5-7 July, 1999, Iaşi, pp 199-202 V V Patriciu, M Pietroşanu-Ene, I Bica, C Cristea, "Securitatea informatică în UNIX şi INTERNET", Ed Tehnică, Bucureşti, 1998 Titu I Băjenescu, Monica E Borda, "Securitatea în informatică şi telecomunicaţii", Editura Dacia, Cluj-Napoca, 2001 M Naforniţă, "Méthodes modernes de traitement du signal pour la compression de données dans les modems haut débit Premier rapport: Techniques de compression" Raport de cercetare AUPELF- UREF, finanţat de FICU, Departamentul de Comunicaţii al Facultăţii de Electronică şi Telecomunicaţii din Timişoara, 2000 Partea a doua Lucrări despre compresie V E Neagoe "Using Legendre Polynomials to Introduce a New Orthogonal Transform for Significant Feature Selection" Proceedings of Pattern Recognition and Image Processing Conference, pp 177- 182, Las Vegas, June 1982 D Stanomir, C Negrescu, L Jalbã Algoritmi pentru prelucrarea semnalului vocal Teorie şi aplicaţii în comunicaţii GSM, Ed Athena, 1998, Bucureşti R R Coifman, N Saito The Local Karhunen-Loeve Bases Proceedings of the IEEE Conference “TFTS’ 96", pp 129-132, Paris, July 1996 European Technical Standard (ETS-300-960) GSM-Digital Cellular Telecommunications (Phase 2+) Full Rate Speech: Processing Functions (GSM 06 01), 1997 European Technical Standard (ETS-300-961) GSM-Digital Cellular Telecommunications (Phase 2+) Transcoding (GSM 06 10), 1997 European Technical Standard (ETS-300-965) GSM-Digital Cellular Telecommunications (Phase 2+) Voice Activity Detector (VAD) for Full Rate Speech Traffic Channels (GSM 06 32), 1997 European Technical Standard (ETS-300-964) GSM-Digital Cellular Telecommunications (Phase 2+) Discontinuous Transmission (DTX) for Full Rate Speech Traffic Channels (GSM 06 01), 1997 European Technical Standard (ETS-300-963) GSM-Digital Cellular Telecommunications (Phase 2) Confort Noise Aspects for Full Rate Speech Traffic Channels (GSM 06 12), 1997 European Technical Standard (ETS-300-962) GSM-Digital Cellular Telecommunications (Phase 2) Substitution and Muting of Lost Frames for Full Rate Speech Traffic Channels (GSM 06 11), 1997 J V Macres Theory and Implementation of the Digital Cellular Standard Voice Coder: VSELP on TMS320C5x, Application Report SPRA 136, Texas Instruments, October 1994 ETSI TS 126090 Universal Mobile Telecommunications System (UMTS), Mandatory Speech Codec speech processing functions AMR speech codec, Transcoding functions, (3G TS 26090) 1999 Lucrări despre cuantizare I Naforni ţă, A Câmpeanu, A Isar, "Semnale Circuite şi Sisteme", curs, Litografia Universităţii "Politehnica" Timişoara, 1995 [Bon ’62] Bonnet, “Sur la statistique du second ordre des signaux aleatoires quantifiés”, Comptes Rendus de l’Academie de sciences francaise, 30 Juillet 1962 P Fiche, V Ricordel, S Labit, “Etude d’algorithmes de quantification vectorialle arborescente pour la compression d’images fixes”, IRISA, Rennes, 1994 I Daubechies, R DeVore, C S Gunturk, V Vaisharnpayan, "Exponential Precision in A/D Conversion with an Imperfect Quantizer, Raport de cercetare, universitatea Stanford, 2001 P A Chou, M Effros, R M Gray, "A Vector Quantization Approach to Universal Noiseless Coding and Quantization" Acceptată pentru publicare în IEEE Transactions on Information Theory, pe data de 16 februarie 1996 R M Gray, R A Olshen, "Vector Quantization and Density Estimation", Raport de cercetare, universitatea Stanford, 1990, http://www-isl stanford edu/~gray/compression html Lucrări despre analiză statistică cu funcţii "wavelet" U Amato, D Vuza Wavelet Regularization for Smoothing Data, Preprint Instituto per Applicazioni della Matematica CNR 1994 U Amato, D Vuza Besov Regularization, Thresholding and Wavelets for Smoothing Data, Preprint Instituto per Applicazioni della Matematica CNR, 1997 U Amato, D Vuza An Alternate Proof of a Result of Johnstone and Silverman Concerning Wavelet Threshold Estimators for Data with Correlated Noise, Preprint Instituto per Applicazioni della Matematica CNR, 1997 U Amato, D Vuza Wavelet Approximation of a Function from Samples Affected by Noise, propusă la Revista Academiei Române U Amato, D Vuza A Collection of Routines for the Wavelet Transform of Daubechies Type, Preprint Instituto per Applicazioni della Matematica CNR, 1997 A Antoniadis, G Gregoire, G Nason Density and Hazard Rate Estimation for Right Censored Data Using Wavelet Methods, Preprint laboratoire LMC-IMAG Grenoble, 1995 J Benedetto, A Teolis A Wavelet Auditory Model and Data Compression În Applied and Computational Harmonic Analysis No 1, pp 3-28, February 1993 J B Buckheit, D Donoho, Time-Frequency Tillings which Best Expose the Non-Gaussian Behaviour of a Stochastic Process Proceedings of the IEEE Conference “TFTS’96”, pp 1-4, Paris, July 1996 S Cambanis, E Masry Wavelet Approximation of Deterministic and Random Signals: Convergence Properties and Rates, IEEE Transactions on information theory , vol 40,no 4, July 1994 B S Chen, C W Lin Multiscale Wiener Filter for the Restoration of Fractal Signals: Wavelets Filter Bank Approach IEEE Transactions on Signal Processing, vol 42, No 11, pp 2972-2982, November 1994 D L Donoho Wavelet Shrinkage and W V D -A Ten Minute Tour Technical Report 416, Stanford University, January 1993 D Donoho CART and Best-Ortho-Basis: A Conection, Preprint Stanford University, 1995 H Y Gao Wavelets Shrinkage Estimate for Heteroscedatic Regression Models Preprint MathSoft, 1997 H -Y Gao Threshold Selection in WaveShrink, Preprint MathSoft, 1997 H -Y Gao Wavelet Shrinkage Denoising Using the Non-negative Garrote, Preprint MathSoft, 1997 D Isar De-noising adaptatif Seizieme Colloque GRETSI, pp 1249-1252, Grenoble, 15-19 Septembre 1997 S Mallat, F Falzon Understanding Image Transform Codes Proceedings of the SPIE Aerospace Conference, Orlando, April 1997 P Moulin Wavelet Thresholding Techniques for Power Spectrum Estimation IEEE Trans on S P , vol 42, No 11, pp 3126-3136, November 1994 G P Nasson Wavelet Regression by Cross-Validation Preprint University of Bristol, March 1994 G P Nason, T Sapantias, A Sawezenko Statistical Modeling of Time Series using Non-decimated Wavelet Representations, Preprint University of Bristol, 1997 P Srinivasan, L M Jamieson Techniques for Variable Rate Speech Coding using Wavelet Representations Proceedings of the IEEE Conference “TFTS’96, pp 109-112, Paris, July 1996 C Taswell Speech Compression with Cosine and Wavelet Packet Near-Best Bases Preprint, Stanford University, 1995 E Wesfreid, M V Wickerhauser Etudes des signaux vocaux par ondelettes de Malvar Quatorzieme Colloque GRETSI, Juan-Les-Pins, Septembre 1993 W Wijmans, P Armbruster Data Compression Techniques for Space Applications Review of Current ESA/ESTEC Development, Proceedings of DASIA’96, Rome, May, 1996 Lucrări despre soft J Buckheit, D Donoho WaveLab Architecture Preprint, Stanford University, November 1995 J Buckheit, S Chen, D Donoho, I M Johnstone, J Scargle WaveLab Reference Manual Preprint, Stanford University, December 1995 J Froment, S Parrino MegaWave 2 User’s Modules Library vol I, vol III, Preprint CEREMADE, Univ Paris Dauphine, Novemeber 1994 W H Press, S A Teukolsky, W T Vetterling, B P Flannery Numerical Recipes in C Cambridge University Press, 1995 Noi lucrări ale autorului A Cubiţchi A New Speech Compression Algorithm International Workshop “Trends and Recent Achievements in Information Technology”16-18 May 2002, Cluj-Napoca Romania A Cubiţchi Une méthode nouvelle pour la compression de la parole, lucrare propusă la Buletinul Ştiinţific al Universităţii "Politehnica" din Timişoara, Seria ELECTRONICĂ şi TELECOMUNICAŢII 